RAG-Routing — Eine API, viele Architekturen
RAG-Routing
Ein API-Endpunkt. Zehn unterstützte Retrieval-Architekturen. Der Router lernt aus dem historischen Anfrageverkehr und leitet jede neue Frage an das Backend, das sie am wahrscheinlichsten korrekt beantwortet — zu den niedrigsten Kosten, die Ihre Qualitätsanforderungen noch erfüllen.
Die drei Architekturen, konzeptionell betrachtet
Die meisten produktiven RAG-Systeme liefern eine einzige Retrieval-Architektur aus und erklären die Sache für erledigt. Wir liefern einen Router, der zwischen architektonisch unterschiedlichen Stacks auswählt — die richtige Wahl ist selten für jede Anfrage in Ihrem Korpus dieselbe.
→ stuff context
→ generate
Am besten geeignet für
Einzelfakten-Abfragen, FAQ-artige Anfragen, „Was ist X?"-Fragen auf flach geschnittenen Korpora.
→ Reciprocal Rank Fusion
→ cross-encoder reranker
→ generate
Am besten geeignet für
Anfragen, bei denen lexikalische und semantische Signale divergieren — Codes, Namen, Akronyme, technisches Vokabular, Fehlermeldungen.
at ingest → agent walks tree
→ opens / reads sections
→ generate
Am besten geeignet für
Multi-Hop-Lektüre langer strukturierter Dokumente — Rechtsverträge, Finanzberichte (10-K), technische PDFs, deren Kontext sich über nicht benachbarte Abschnitte erstreckt.
Wie der Router tatsächlich entscheidet
Die meisten veröffentlichten RAG-Router klassifizieren die Anfrage vorab nach Komplexität. Unserer nicht. Wir setzen auf gelerntes Routing: Jede erfolgreiche Anfrage wird zusammen mit dem Backend, das sie beantwortet hat, gespeichert, und neue Anfragen werden über Embedding-Ähnlichkeit gegen diese Historie abgeglichen.
Der Lookup-Algorithmus — was bei jeder Anfrage ausgeführt wird
- Hash der Frage mit SHA-256, gekürzt auf einen 16-Zeichen-Schlüssel, und prüfen Sie den kundenspezifischen Routing-Speicher in Cloudflare KV auf einen exakten früheren Treffer. Wurde sie schon einmal beantwortet, wird sie sofort an das Backend weitergeleitet, das es zuletzt am besten gemacht hat.
- Bei einem Miss wird die Frage eingebettet und per Kosinus-Suche gegen den gecachten Index historischer Frage-Embeddings abgeglichen. Übersteigt die Ähnlichkeit des nächsten Nachbarn 0.88, wird an das zugehörige Backend weitergeleitet.
- Gibt es keinen Treffer oberhalb des Schwellenwerts, greift das Standard-Backend des Kunden für dieses Korpus.
- Nachdem die Antwort gerendert wurde, wird das Tupel (Frage-Hash, Backend, Qualitätsbewertung) zurück in den kundenspezifischen Routing-Verlaufsspeicher geschrieben und versorgt so künftige Lookups.
Die zehn Backends, zwischen denen wir heute routen
Der Router leitet an eines von zehn benannten Backends weiter. Drei davon sind „Tier-3-förmig" (hierarchisch oder graph-erweitert); die übrigen sind reine Vektor-Engines, die wir als Tier 1 mit unterschiedlichen operativen Trade-offs behandeln.
Tier 2 (BM25 + Dense-Fusion + Cross-Encoder-Reranker) wird heute in unserem Workflow-Canvas als komponierbarer Knoten ausgeliefert. Der Auto-Router nimmt ihn als Nächstes ins Visier, sobald die korpusspezifischen Routing-Daten dies rechtfertigen.
API-Oberfläche — ein Endpunkt, audittaugliche Transparenz
Der Router ist für Ihren Aufrufer unsichtbar. Eine einzige Anfrageform; die Antwort enthält die Routing-Entscheidung, sodass Sie auditieren können, welches Backend geantwortet hat (und warum).
# Ein Endpunkt. Der Router entscheidet, welches Backend genutzt wird.
curl -X POST https://api.divinci.app/v1/rag/query \
-H "Authorization: Bearer $DIVINCI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"question": "What clauses in the 2024 amendment override section 7.3?",
"corpus": "legal-contracts-q4"
}'
# Antwort — Chunks, die der Agent zur Verankerung der Antwort benötigt.
{
"items": [
{
"content": "Section 7.3 is superseded by …",
"metadata": { "doc": "amendment-2024.pdf", "section": "II.4.b" },
"score": 0.91
}
/* … */
],
"routing": {
"backend": "pageindex", // an Tier-3-Page-Index weitergeleitet
"match_source": "learned-history", // Arena · Auto-Fix · oder Fallback
"similarity": 0.92, // ≥ 0.88 Schwellenwert
"ttl_remaining":"23d 14h" // Frischefenster vor erneutem Benchmark
}
}
Die routing-Metadaten werden derzeit intern protokolliert und über den Audit-Trail ausgewiesen. Die Inline-Auslieferung in der Response wird im Verlauf von Q3 2026 ausgerollt.
Wie sich das von bestehenden Routern unterscheidet
RAG-Routing ist keine neue Idee — akademische Router wie Adaptive-RAG und Probing-RAG klassifizieren Anfragen bereits nach Komplexität. Die Differenzierung liegt darin, dass Divinci über architektonisch unterschiedliche Retrieval-Stacks routet, gelernt aus Ihrem eigenen Traffic, hinter einem einzigen verwalteten Endpunkt.
| Angebot | Wozwischen geroutet wird | Routing-Achse | Verwaltet? |
|---|---|---|---|
| Divinci RAG Routing | 10 Backends (PageIndex, RAPTOR, LightRAG, neo4j, 6 Vektor-Engines) | Architektur · gelernt aus der Historie | Ja — einzelner Endpunkt |
| LlamaIndex RouterRetriever | BYO-Retriever | LLM-/Pydantic-Selektor | Nein — Bibliothek zum Selbstzusammenbauen |
| Adaptive-RAG (Jeong et al.) | kein Retrieval / Single-Step / iterativ | Tiefe · Klassifikator für Anfragekomplexität | Forschung |
| Cloudflare AI Search (vormals AutoRAG) | Eine hybride Pipeline | Kein Routing | Ja |
| AWS Bedrock Knowledge Bases | Eine hybride Pipeline | Kein Routing | Ja |
| Azure AI Search Agentic Retrieval | Hybrid + separater agentischer Modus | Modus wird manuell vom Nutzer gewählt | Ja |
| VectifyAI PageIndex | Einzelne Architektur (hierarchische Traversierung) | Kein Routing | OSS, eigenständig |
Die ehrliche Schwäche in unserem Pitch: RAG-Routing pro Anfrage ist als Konzept nicht neu. Wir haben Routing nicht erfunden. Die echte Differenzierung ist die Kombination aus (a) Routing über architektonisch unterschiedliche Stacks statt nur über Tiefenvarianten, (b) PageIndex-/RAPTOR-/LightRAG-artige hierarchische Traversierung als erstklassiges Backend statt als separates Produkt und (c) einem verwalteten Endpunkt statt einer Bibliothek, die Sie selbst zusammenbauen und betreiben.
Wie Routing-Präferenzen befüllt werden
Ihr Routing-Modell ist nicht vortrainiert — es lernt aus Ihrem Traffic. Drei Signale speisen den Routing-Verlaufsspeicher.
- Arena-Auswahl. Schicken Sie eine Anfrage über RAG Arena durch mehrere Backends, bewerten Sie die Varianten direkt nebeneinander und küren Sie den Sieger. Das Paar (Frage, Sieger-Backend) landet im Routing-Speicher.
- Auto-Fix-Ergebnisse. Wenn unser Auto-Fix während des Ingests oder geplanter Audits vergleichende Retrievals auf repräsentativen Anfragen ausführt, wird das jeweils leistungsstärkste Backend pro Anfrage in denselben Speicher geschrieben.
- Produktions-Feedback. Erfolgreiche Anfragen (jene, die über unser Online-Evaluations-Gate Ihre Qualitätsschwelle überschritten haben — siehe den Beitrag zum Regressionstesten) schreiben ihr Paar (Frage-Hash, Backend) zur Anfragezeit in den Routing-Speicher zurück, mit einer TTL von 30 Tagen, damit das Routing-Modell frisch bleibt, während sich Ihr Korpus weiterentwickelt.
Wann das am wichtigsten ist
Ein homogenes Korpus mit einheitlichen Anfrageformen profitiert kaum — wählen Sie manuell ein Backend, und Sie sind fertig. Der Hebel sind gemischte Korpora und gemischte Anfrageformen.
Ein Rechtsteam, das sowohl „Wie lautet die Definition von höherer Gewalt in unserem Standardvertrag?" (Tier 1, unter 300 ms) als auch „Welche unserer 47 Lieferantenverträge enthalten nicht standardisierte Kündigungsklauseln und welche Muster gibt es?" (Tier 3, mehrsekündige Page-Index-Traversierung) fragt, möchte sich nicht auf ein Backend festlegen. Es will, dass die einfache Frage schnell und günstig zurückkommt und die tiefe Frage korrekt zurückkommt, auch wenn sie mehr kostet — ohne zwei Stacks betreiben zu müssen.
Das ist der Fall, in dem ein verwalteter Endpunkt, der über architektonisch unterschiedliche Backends routet, seinen Wert beweist. Ist Ihr Traffic einheitlich, brauchen Sie ihn nicht. Ist Ihr Traffic gemischt — und das ist bei den meisten echten Unternehmenskorpora der Fall —, schon.
Weiterführende Lektüre und angrenzende Produkte
Die Architektur-Tiefenanalyse finden Sie in unserem Blogbeitrag The Future of RAG Systems: Beyond Simple Document Retrieval. Die Arena, die Schritt 1 oben antreibt, liegt unter RAG Arena & Dynamic Routing. Routing-Entscheidungen werden über dasselbe Release-Manifest-Muster audit-verankert, das wir plattformweit einsetzen — siehe Validating and Releasing Custom LMs in Regulated Fields. Und wenn Sie wissen möchten, wie wir Retrieval-Qualität online evaluieren (das Signal, das Schritt 3 oben speist), ist der Beitrag zum Regressionstesten der richtige Einstieg.