Dokumentenmanagement

Das effektive Management von Dokumenten ist eine der wichtigsten Fähigkeiten im Umgang mit OpenSearch. In diesem Kapitel lernen Sie, wie Sie Dokumente erstellen, aktualisieren, abrufen und löschen können. Wir werden jeden Aspekt des Dokumentenmanagements im Detail betrachten und durch praktische Beispiele veranschaulichen.

30.1 Das Dokument als Grundbaustein

Stellen Sie sich ein Dokument in OpenSearch wie einen Container vor, der Ihre Daten in Form von JSON speichert. Anders als in relationalen Datenbanken, wo Daten in starre Tabellenstrukturen gepresst werden müssen, bieten Dokumente eine flexible Möglichkeit, auch komplexe Datenstrukturen natürlich abzubilden.

30.2 CRUD-Operationen im Detail

30.2.1 Dokumente erstellen (Create)

30.2.2 Dokumente lesen (Read)

30.2.3 Dokumente aktualisieren (Update)

OpenSearch bietet verschiedene Möglichkeiten zur Aktualisierung von Dokumenten:

30.2.4 Dokumente löschen (Delete)

30.3 Optimistic Concurrency Control

OpenSearch verwendet Optimistic Concurrency Control (OCC), um Konflikte bei gleichzeitigen Änderungen zu verhindern. Dies funktioniert über die Versionierung von Dokumenten:

Wenn die Sequenznummer oder der Primary Term nicht übereinstimmen, wird die Operation mit einem Versionierungskonflikt abgelehnt:

30.4 Bulk-Operationen

Für die effiziente Verarbeitung mehrerer Dokumente bietet OpenSearch die Bulk-API:

def process_bulk_operations(operations, batch_size=1000):
    """
    Verarbeitet Bulk-Operationen mit Error Handling und Reporting.
    
    Args:
        operations: Liste von Operationen
        batch_size: Anzahl Operationen pro Batch
    
    Returns:
        Dict mit Statistiken über erfolgreiche/fehlgeschlagene Operationen
    """
    stats = {"successful": 0, "failed": 0, "errors": []}
    
    # Batches erstellen
    for i in range(0, len(operations), batch_size):
        batch = operations[i:i + batch_size]
        bulk_body = []
        
        # Bulk Request Body erstellen
        for op in batch:
            if op["action"] == "index":
                bulk_body.append(json.dumps({"index": {"_index": op["index"], "_id": op["id"]}}))
                bulk_body.append(json.dumps(op["document"]))
            elif op["action"] == "update":
                bulk_body.append(json.dumps({"update": {"_index": op["index"], "_id": op["id"]}}))
                bulk_body.append(json.dumps({"doc": op["document"]}))
            elif op["action"] == "delete":
                bulk_body.append(json.dumps({"delete": {"_index": op["index"], "_id": op["id"]}}))
        
        # Bulk Request ausführen
        try:
            response = requests.post(
                "http://localhost:9200/_bulk",
                headers={"Content-Type": "application/x-ndjson"},
                data="\n".join(bulk_body) + "\n"
            )
            
            result = response.json()
            if result.get("errors", False):
                for item in result["items"]:
                    action = list(item.keys())[0]
                    if "error" in item[action]:
                        stats["failed"] += 1
                        stats["errors"].append({
                            "id": item[action]["_id"],
                            "error": item[action]["error"]["reason"]
                        })
                    else:
                        stats["successful"] += 1
            else:
                stats["successful"] += len(batch)
                
        except Exception as e:
            stats["failed"] += len(batch)
            stats["errors"].append({
                "batch_start": i,
                "error": str(e)
            })
    
    return stats

30.5 Versionierung und Historisierung

OpenSearch unterstützt keine integrierte Dokumentenhistorie, aber wir können eine eigene Implementierung erstellen:

def update_with_history(index, doc_id, update_data):
    """
    Aktualisiert ein Dokument und bewahrt die Historie.
    
    Args:
        index: Name des Index
        doc_id: Dokument-ID
        update_data: Neue Dokumentendaten
    """
    # Aktuelles Dokument abrufen
    current_doc = requests.get(f"http://localhost:9200/{index}/_doc/{doc_id}").json()
    
    if "_source" in current_doc:
        # Historie erstellen
        history_doc = {
            "original_id": doc_id,
            "version": current_doc["_version"],
            "timestamp": datetime.utcnow().isoformat(),
            "data": current_doc["_source"]
        }
        
        # Historie speichern
        requests.post(
            f"http://localhost:9200/{index}-history/_doc",
            json=history_doc
        )
        
        # Dokument aktualisieren
        requests.put(
            f"http://localhost:9200/{index}/_doc/{doc_id}",
            json=update_data
        )

30 Dokumentenmanagement