Skip to main content
Neueste Forschung:Wenn der Schaltkreis sich auflöst →12 vindexes on Hugging Face
Demo anfordern

RAG-Routing — Eine API, viele Architekturen

RAG-Routing

Ein API-Endpunkt. Zehn unterstützte Retrieval-Architekturen. Der Router lernt aus dem historischen Anfrageverkehr und leitet jede neue Frage an das Backend, das sie am wahrscheinlichsten korrekt beantwortet — zu den niedrigsten Kosten, die Ihre Qualitätsanforderungen noch erfüllen.

Sprechen Sie mit uns Zur Tiefenanalyse →

Die drei Architekturen, konzeptionell betrachtet

Die meisten produktiven RAG-Systeme liefern eine einzige Retrieval-Architektur aus und erklären die Sache für erledigt. Wir liefern einen Router, der zwischen architektonisch unterschiedlichen Stacks auswählt — die richtige Wahl ist selten für jede Anfrage in Ihrem Korpus dieselbe.

Tier 1 · Flat-Vector-RAG
FAST & CHEAP
embed → cosine top-k
→ stuff context
→ generate

Am besten geeignet für

Einzelfakten-Abfragen, FAQ-artige Anfragen, „Was ist X?"-Fragen auf flach geschnittenen Korpora.

Latenz:< 300 ms p95Kosten:Cents pro AnfrageBackends:Qdrant · Cloudflare · Vertex · MongoDB · Redis
Tier 2 · Hybrid + Rerank
BALANCED
BM25 lexical + dense vector
→ Reciprocal Rank Fusion
→ cross-encoder reranker
→ generate

Am besten geeignet für

Anfragen, bei denen lexikalische und semantische Signale divergieren — Codes, Namen, Akronyme, technisches Vokabular, Fehlermeldungen.

Latenz:~ 800 msKosten:weiterhin geringHeute:komponierbarer Workflow-Knoten · Auto-Router auf der Roadmap
Tier 3 · Page-Index + Agent
DEEP & DELIBERATE
hierarchical TOC tree built
at ingest → agent walks tree
→ opens / reads sections
→ generate

Am besten geeignet für

Multi-Hop-Lektüre langer strukturierter Dokumente — Rechtsverträge, Finanzberichte (10-K), technische PDFs, deren Kontext sich über nicht benachbarte Abschnitte erstreckt.

Latenz:mehrere SekundenKosten:am höchsten — aber nur bei BedarfBackend:PageIndex · RAPTOR · LightRAG · neo4j-hybrid

Wie der Router tatsächlich entscheidet

Die meisten veröffentlichten RAG-Router klassifizieren die Anfrage vorab nach Komplexität. Unserer nicht. Wir setzen auf gelerntes Routing: Jede erfolgreiche Anfrage wird zusammen mit dem Backend, das sie beantwortet hat, gespeichert, und neue Anfragen werden über Embedding-Ähnlichkeit gegen diese Historie abgeglichen.

Der Lookup-Algorithmus — was bei jeder Anfrage ausgeführt wird

  1. Hash der Frage mit SHA-256, gekürzt auf einen 16-Zeichen-Schlüssel, und prüfen Sie den kundenspezifischen Routing-Speicher in Cloudflare KV auf einen exakten früheren Treffer. Wurde sie schon einmal beantwortet, wird sie sofort an das Backend weitergeleitet, das es zuletzt am besten gemacht hat.
  2. Bei einem Miss wird die Frage eingebettet und per Kosinus-Suche gegen den gecachten Index historischer Frage-Embeddings abgeglichen. Übersteigt die Ähnlichkeit des nächsten Nachbarn 0.88, wird an das zugehörige Backend weitergeleitet.
  3. Gibt es keinen Treffer oberhalb des Schwellenwerts, greift das Standard-Backend des Kunden für dieses Korpus.
  4. Nachdem die Antwort gerendert wurde, wird das Tupel (Frage-Hash, Backend, Qualitätsbewertung) zurück in den kundenspezifischen Routing-Verlaufsspeicher geschrieben und versorgt so künftige Lookups.
Warum „gelernt" statt „klassifiziert"? Empirisch verhält sich dieselbe Anfrageform auf unterschiedlichen Korpora unterschiedlich. „Vergleiche X über Y" auf Rechtsverträgen verlangt nach einer Tier-3-Page-Index-Traversierung; dieselbe Form auf einem flachen FAQ-Korpus läuft problemlos in Tier 1. Das Routing-Modell diese Unterscheidung korpusspezifisch aus historischen Belegen lernen zu lassen, anstatt aus der Anfragesyntax zu raten, ist die Designentscheidung, die wir tatsächlich ausgeliefert haben.

Die zehn Backends, zwischen denen wir heute routen

Der Router leitet an eines von zehn benannten Backends weiter. Drei davon sind „Tier-3-förmig" (hierarchisch oder graph-erweitert); die übrigen sind reine Vektor-Engines, die wir als Tier 1 mit unterschiedlichen operativen Trade-offs behandeln.

PI
pageindexHierarchischer Inhaltsverzeichnis-Baum + agentische Traversierung. Der Tier-3-Archetyp.
RT
raptorBaumtraversierungs-Retrieval über rekursiv zusammengefassten Dokumenthierarchien (ICLR 2024).
neo4j-hybridGraph-erweitertes Retrieval, das Vektor-Embeddings mit expliziter Entitäts- und Beziehungsstruktur kombiniert.
LR
lightragDual-Mode-Retrieval auf flachem Graphen — Entitäts- + Community-Suche, der LightRAG-Ansatz der HKU.
qdrantSelbst gehostete Dense-Vector-Engine für Lookups mit hohem Durchsatz und niedriger Latenz.
cloudflare-v2Vectorize am Edge — Sub-300-ms-p95 aus Cloudflares globalem Netzwerk.
couchbase-byokBYO-Couchbase-Vektorspeicher für Kunden mit bestehenden operativen Abhängigkeiten.
vertex-ai-vector-search-v2Google Cloud Vertex AI Vector Search für Kunden, die auf Googles Datenstack setzen.
mongodb-atlasAtlas Vector Search für Kunden, die Dokumentdaten auf MongoDB betreiben.
redis-vector-searchRedis Vector Search für In-Memory-Retrieval-Workloads mit ultraniedriger Latenz.

Tier 2 (BM25 + Dense-Fusion + Cross-Encoder-Reranker) wird heute in unserem Workflow-Canvas als komponierbarer Knoten ausgeliefert. Der Auto-Router nimmt ihn als Nächstes ins Visier, sobald die korpusspezifischen Routing-Daten dies rechtfertigen.

API-Oberfläche — ein Endpunkt, audittaugliche Transparenz

Der Router ist für Ihren Aufrufer unsichtbar. Eine einzige Anfrageform; die Antwort enthält die Routing-Entscheidung, sodass Sie auditieren können, welches Backend geantwortet hat (und warum).

# Ein Endpunkt. Der Router entscheidet, welches Backend genutzt wird.
curl -X POST https://api.divinci.app/v1/rag/query \
  -H "Authorization: Bearer $DIVINCI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "question": "What clauses in the 2024 amendment override section 7.3?",
    "corpus":   "legal-contracts-q4"
  }'
# Antwort — Chunks, die der Agent zur Verankerung der Antwort benötigt.
{
  "items": [
    {
      "content":  "Section 7.3 is superseded by …",
      "metadata": { "doc": "amendment-2024.pdf", "section": "II.4.b" },
      "score":    0.91
    }
    /* … */
  ],
  "routing": {
    "backend":      "pageindex",           // an Tier-3-Page-Index weitergeleitet
    "match_source": "learned-history",     // Arena · Auto-Fix · oder Fallback
    "similarity":   0.92,                  // ≥ 0.88 Schwellenwert
    "ttl_remaining":"23d 14h"              // Frischefenster vor erneutem Benchmark
  }
}

Die routing-Metadaten werden derzeit intern protokolliert und über den Audit-Trail ausgewiesen. Die Inline-Auslieferung in der Response wird im Verlauf von Q3 2026 ausgerollt.

Wie sich das von bestehenden Routern unterscheidet

RAG-Routing ist keine neue Idee — akademische Router wie Adaptive-RAG und Probing-RAG klassifizieren Anfragen bereits nach Komplexität. Die Differenzierung liegt darin, dass Divinci über architektonisch unterschiedliche Retrieval-Stacks routet, gelernt aus Ihrem eigenen Traffic, hinter einem einzigen verwalteten Endpunkt.

AngebotWozwischen geroutet wirdRouting-AchseVerwaltet?
Divinci RAG Routing10 Backends (PageIndex, RAPTOR, LightRAG, neo4j, 6 Vektor-Engines)Architektur · gelernt aus der HistorieJa — einzelner Endpunkt
LlamaIndex RouterRetrieverBYO-RetrieverLLM-/Pydantic-SelektorNein — Bibliothek zum Selbstzusammenbauen
Adaptive-RAG (Jeong et al.)kein Retrieval / Single-Step / iterativTiefe · Klassifikator für AnfragekomplexitätForschung
Cloudflare AI Search (vormals AutoRAG)Eine hybride PipelineKein RoutingJa
AWS Bedrock Knowledge BasesEine hybride PipelineKein RoutingJa
Azure AI Search Agentic RetrievalHybrid + separater agentischer ModusModus wird manuell vom Nutzer gewähltJa
VectifyAI PageIndexEinzelne Architektur (hierarchische Traversierung)Kein RoutingOSS, eigenständig

Die ehrliche Schwäche in unserem Pitch: RAG-Routing pro Anfrage ist als Konzept nicht neu. Wir haben Routing nicht erfunden. Die echte Differenzierung ist die Kombination aus (a) Routing über architektonisch unterschiedliche Stacks statt nur über Tiefenvarianten, (b) PageIndex-/RAPTOR-/LightRAG-artige hierarchische Traversierung als erstklassiges Backend statt als separates Produkt und (c) einem verwalteten Endpunkt statt einer Bibliothek, die Sie selbst zusammenbauen und betreiben.

Wie Routing-Präferenzen befüllt werden

Ihr Routing-Modell ist nicht vortrainiert — es lernt aus Ihrem Traffic. Drei Signale speisen den Routing-Verlaufsspeicher.

  1. Arena-Auswahl. Schicken Sie eine Anfrage über RAG Arena durch mehrere Backends, bewerten Sie die Varianten direkt nebeneinander und küren Sie den Sieger. Das Paar (Frage, Sieger-Backend) landet im Routing-Speicher.
  2. Auto-Fix-Ergebnisse. Wenn unser Auto-Fix während des Ingests oder geplanter Audits vergleichende Retrievals auf repräsentativen Anfragen ausführt, wird das jeweils leistungsstärkste Backend pro Anfrage in denselben Speicher geschrieben.
  3. Produktions-Feedback. Erfolgreiche Anfragen (jene, die über unser Online-Evaluations-Gate Ihre Qualitätsschwelle überschritten haben — siehe den Beitrag zum Regressionstesten) schreiben ihr Paar (Frage-Hash, Backend) zur Anfragezeit in den Routing-Speicher zurück, mit einer TTL von 30 Tagen, damit das Routing-Modell frisch bleibt, während sich Ihr Korpus weiterentwickelt.
Wo dies wirklich produktionsreif ist und wo Roadmap: Schritte 1 und 2 sind heute ausgeliefert. Die automatische Feedback-Schleife in Schritt 3 ist teilweise ausgeliefert — erfolgreiche Anfragen schreiben zurück, doch Tier 2 (BM25 + RRF + Reranker) wird derzeit als Workflow-Knoten komponiert statt automatisch geroutet. Wir nehmen Tier 2 in den Auto-Router auf, sobald die Routing-Daten klare Gewinnbedingungen dafür zeigen.

Wann das am wichtigsten ist

Ein homogenes Korpus mit einheitlichen Anfrageformen profitiert kaum — wählen Sie manuell ein Backend, und Sie sind fertig. Der Hebel sind gemischte Korpora und gemischte Anfrageformen.

Ein Rechtsteam, das sowohl „Wie lautet die Definition von höherer Gewalt in unserem Standardvertrag?" (Tier 1, unter 300 ms) als auch „Welche unserer 47 Lieferantenverträge enthalten nicht standardisierte Kündigungsklauseln und welche Muster gibt es?" (Tier 3, mehrsekündige Page-Index-Traversierung) fragt, möchte sich nicht auf ein Backend festlegen. Es will, dass die einfache Frage schnell und günstig zurückkommt und die tiefe Frage korrekt zurückkommt, auch wenn sie mehr kostet — ohne zwei Stacks betreiben zu müssen.

Das ist der Fall, in dem ein verwalteter Endpunkt, der über architektonisch unterschiedliche Backends routet, seinen Wert beweist. Ist Ihr Traffic einheitlich, brauchen Sie ihn nicht. Ist Ihr Traffic gemischt — und das ist bei den meisten echten Unternehmenskorpora der Fall —, schon.