32 Routing in OpenSearch

Routing in OpenSearch ist ein Mechanismus, der bestimmt, auf welchem Shard ein Dokument gespeichert oder gesucht wird. Standardmäßig übernimmt OpenSearch diese Aufgabe automatisch, aber benutzerdefiniertes Routing bietet zusätzliche Kontrolle und Optimierungsmöglichkeiten, insbesondere bei großen Datenmengen oder spezifischen Anwendungsfällen.

32.1 Standard-Routing

Im Standardfall berechnet OpenSearch anhand eines Hash-Werts der Dokument-ID, auf welchem Shard ein Dokument gespeichert wird. Dieses Verhalten sorgt für eine gleichmäßige Verteilung der Dokumente über alle Shards und gewährleistet eine gute Skalierbarkeit.

Vorteil: Gleichmäßige Datenverteilung ohne manuellen Aufwand.
Nachteil: Abfragen können nicht gezielt optimiert werden, da sie immer alle relevanten Shards durchsuchen müssen.

32.2 Benutzerdefiniertes Routing

Benutzerdefiniertes Routing in OpenSearch ist ein leistungsstarkes Werkzeug, das über das standardmäßige automatische Sharding hinausgeht. Damit kann explizit festgelegt werden, welcher Routing-Wert für die Platzierung eines Dokuments verwendet werden soll. Der Routing-Wert wird anstelle der Dokument-ID für die Hash-Berechnung herangezogen und sorgt dafür, dass alle Dokumente mit demselben Routing-Wert auf dem gleichen Shard gespeichert werden.

Benutzerdefiniertes Routing bietet damit erhebliche Vorteile bei der Optimierung von Abfragen und der Datenverteilung, insbesondere bei spezifischen Anwendungsfällen. Es erfordert jedoch eine sorgfältige Planung, um Nachteile wie ungleichmäßige Lastverteilung zu vermeiden. Mit einer durchdachten Strategie kann benutzerdefiniertes Routing dazu beitragen, die Effizienz und Leistung von OpenSearch-Clustern erheblich zu verbessern.

32.2.1 Beispiel für benutzerdefiniertes Routing

PUT /orders/_doc/1?routing=customer123
{
    "order_id": "ORDER-1",
    "customer_id": "customer123",
    "amount": 157.35,
    "items": [...]
}

In diesem Beispiel wird der Routing-Wert customer123 verwendet. Dadurch landen alle Dokumente, die mit routing=customer123 gespeichert werden, auf demselben Shard. Dies ist besonders nützlich, wenn häufig gezielte Abfragen für diese Daten durchgeführt werden.

32.3 Vorteile von benutzerdefiniertem Routing

32.3.1 Effizientere Abfragen

Abfragen, die Daten mit einem bestimmten Routing-Wert betreffen, können gezielt nur auf dem relevanten Shard ausgeführt werden. Das reduziert die Anzahl der betroffenen Shards und damit die Suchzeit.

Beispiel:

GET /orders/_search?routing=customer123
{
    "query": {
        "match": {
            "customer_id": "customer123"
        }
    }
}

Diese Abfrage wird nur auf dem Shard ausgeführt, der die Daten für customer123 enthält, was die Abfragezeit deutlich reduziert.

32.3.2 Geringerer Ressourcenverbrauch

Da bei gezielten Abfragen weniger Shards durchsucht werden müssen, sinkt der Speicher- und Netzwerkbedarf. Insbesondere in Clustern mit vielen Knoten und großen Datenmengen sorgt dies für eine spürbare Entlastung.

32.3.3 Optimierte Datenverteilung

Benutzerdefiniertes Routing ermöglicht eine kontrollierte und vorhersehbare Verteilung der Daten über die Shards. Zusammengehörige Daten, wie z. B. alle Bestellungen eines Kunden oder Logs eines Geräts, können gezielt auf einem Shard gespeichert werden.

32.3.4 Schnellere Schreiboperationen

Wenn Dokumente, die zusammengehören, auf demselben Shard gespeichert sind, werden Schreiboperationen wie Aktualisierungen oder Löschungen effizienter, da nur ein Shard betroffen ist.

32.3.5 Geeignet für spezielle Anwendungsfälle

Benutzerdefiniertes Routing ist besonders nützlich in Szenarien, in denen zusammenhängende Daten häufig gemeinsam abgefragt werden, z. B.: - E-Commerce: Bestellungen eines Kunden (customer_id). - IoT: Daten eines Geräts (device_id). - Log-Analyse: Logs einer Anwendung oder eines Clusters.

32.4 Herausforderungen beim Routing

Benutzerdefiniertes Routing bringt auch potenzielle Herausforderungen mit sich, die berücksichtigt werden müssen:

Ungleichmäßige Lastverteilung: Wenn einige Routing-Werte (z. B. besonders aktive Kunden) mehr Daten enthalten als andere, kann es zu einer Überlastung einzelner Shards kommen. Dies wird als “Hotspot” bezeichnet.
Eingeschränkte Flexibilität: Einmal gespeicherte Dokumente mit einem bestimmten Routing-Wert können nicht mehr einfach auf andere Shards verschoben werden. Änderungen erfordern eine Neuindizierung.
Komplexität: Benutzerdefiniertes Routing erfordert ein gutes Verständnis der Datenstruktur und Zugriffsmuster, um von den Vorteilen zu profitieren, ohne Hotspots zu verursachen.