15 Index Management API

15.1 Einführung in die Indexierung

Bevor wir uns mit den Details des Index Managements befassen, ist es wichtig zu verstehen, was Indexierung in OpenSearch bedeutet. Indexierung ist die Methode, mit der Suchmaschinen Daten für einen schnellen Zugriff organisieren. Die daraus resultierende Struktur wird passenderweise als Index bezeichnet.

In OpenSearch ist die grundlegende Dateneinheit ein JSON-Dokument. Innerhalb eines Index identifiziert OpenSearch jedes Dokument über eine eindeutige ID.

15.2 Grundlegende Index-Operationen

15.2.1 Dokumente Indexieren

OpenSearch bietet zwei Hauptmethoden zur Indexierung von Dokumenten:

Index API für einzelne Dokumente:

PUT <index>/_doc/<id>
{ "title": "Ein JSON Dokument" }

Diese Methode eignet sich besonders für:

Inkrementelle Datenaktualisierungen (z.B. Kundenbestellungen)
Echtzeit-Verarbeitung einzelner Dokumente

Bulk API für Massendaten:

POST _bulk
{ "index": { "_index": "<index>", "_id": "<id>" } }
{ "title": "Ein JSON Dokument" }

Besonders geeignet für:

Große Datenmengen
Periodische Updates (z.B. wöchentliche Website-Aktualisierungen)
Bessere Performance bei vielen Dokumenten

15.2.2 Wichtige Einschränkungen und Best Practices

Die Dokument-ID muss maximal 512 Bytes groß sein
Bulk-Daten müssen einem speziellen Format folgen:
- Jede Zeile muss mit einem Zeilenumbruch () enden
- Aktionen und Metadaten müssen in der richtigen Reihenfolge stehen

15.2.3 Index-Verwaltung

15.2.3.1 Index erstellen

PUT more-movies
{
  "settings": {
    "number_of_shards": 6,
    "number_of_replicas": 2
  }
}

Wichtig: Standardmäßig wird ein Index mit einem primären Shard und einer Replik erstellt. Für spezifische Anforderungen sollten Sie den Index vor dem Hinzufügen von Dokumenten mit angepassten Einstellungen erstellen.

15.2.3.2 Benennungsregeln für Indices

Beim Erstellen von Indices müssen folgende Regeln beachtet werden:

Ausschließlich Kleinbuchstaben verwenden
Keine Unterstriche (_) oder Bindestriche (-) am Anfang
Keine Leerzeichen, Kommas oder Sonderzeichen wie :, “, *, +, /, , |, ?, #, >, <

15.3 Fortgeschrittene Konzepte

15.3.1 Optimistic Concurrency Control

OpenSearch verwendet ein System zur Vermeidung von Konflikten bei gleichzeitigen Updates:

Jedes Dokument hat eindeutige _seq_no und _primary_term Werte
Bei Updates können diese Werte geprüft werden:

POST movies/_update/2?if_seq_no=3&if_primary_term=1
{
  "doc": {
    "title": "Neuer Titel"
  }
}

15.3.2 Upsert-Operationen

Für bedingte Updates basierend auf der Existenz eines Dokuments:

POST movies/_update/2
{
  "doc": {
    "title": "Neuer Titel"
  },
  "upsert": {
    "title": "Standardtitel",
    "genre": ["Standard"]
  }
}

15.4 Daten Lesen und Aktualisieren

15.4.1 Einzelne Dokumente abrufen

GET movies/_doc/1

15.4.2 Mehrere Dokumente gleichzeitig abrufen

GET _mget
{
  "docs": [
    {
      "_index": "movies",
      "_id": "1"
    },
    {
      "_index": "movies",
      "_id": "2"
    }
  ]
}

15.4.3 Dokumentenexistenz prüfen

HEAD movies/_doc/<doc-id>

Rückgabe: 200 OK wenn existiert, 404 Not Found wenn nicht

15.4.4 Updates

Partielle Updates (POST):

POST movies/_update/1
{
  "doc": {
    "title": "Neuer Titel",
    "genre": ["Neu"]
  }
}

Vollständiger Dokumentersatz (PUT):

PUT movies/_doc/1
{
  "title": "Komplett neues Dokument"
}

15.5 Fehlerbehandlung und Monitoring

Bei Bulk-Operationen werden Fehler einzelner Aktionen in einem items-Array zurückgegeben
Die Reihenfolge der Antworten entspricht der Reihenfolge der Anfragen
Das _version-Feld protokolliert die Anzahl der Änderungen an einem Dokument
Bei Konflikten wird ein 409 Conflict Error zurückgegeben

15.6 Weiterführende Themen

Index State Management (ISM) für automatisierte Index-Verwaltung
Reindexierung von Daten
Performance-Optimierung bei großen Datenmengen