RAG रूटिंग

एक API एंडपॉइंट। दस समर्थित रिट्रीवल आर्किटेक्चर। राउटर आपके ऐतिहासिक क्वेरी ट्रैफ़िक से सीखता है और हर नए प्रश्न को उस बैकएंड पर भेजता है जो उसका सही उत्तर देने की सबसे अधिक संभावना रखता है — उस सबसे कम लागत पर जो अभी भी आपके गुणवत्ता मानक को पूरा करती है।

हमसे बात करें गहन विश्लेषण पढ़ें →

तीनों आर्किटेक्चर, संकल्पनात्मक रूप से

अधिकांश प्रोडक्शन RAG सिस्टम एक रिट्रीवल आर्किटेक्चर शिप करते हैं और उसे ही पूर्ण मान लेते हैं। हम एक राउटर शिप करते हैं जो आर्किटेक्चरल रूप से भिन्न स्टैक्स में से चयन करता है — आपके कॉर्पस में हर क्वेरी के लिए सही विकल्प शायद ही कभी एक जैसा होता है।

Tier 1 · फ़्लैट-वेक्टर RAG

FAST & CHEAP

embed → cosine top-k
→ stuff context
→ generate

किसके लिए सर्वोत्तम

एकल-तथ्य लुकअप, FAQ-आकार की क्वेरीज़, फ़्लैट-चंक किए गए कॉर्पस पर "X क्या है?" जैसे प्रश्न।

लेटेंसी:< 300 ms p95लागत:प्रति क्वेरी कुछ पैसेबैकएंड्स:Qdrant · Cloudflare · Vertex · MongoDB · Redis

Tier 2 · हाइब्रिड + रीरैंक

BALANCED

BM25 lexical + dense vector
→ Reciprocal Rank Fusion
→ cross-encoder reranker
→ generate

किसके लिए सर्वोत्तम

वे क्वेरीज़ जहाँ शाब्दिक और सिमेंटिक संकेत असहमत होते हैं — कोड, नाम, संक्षिप्ताक्षर, तकनीकी शब्दावली, एरर स्ट्रिंग्स।

लेटेंसी:~ 800 msलागत:अभी भी कमआज:कंपोज़ेबल वर्कफ़्लो नोड · ऑटो-राउटर रोडमैप पर

Tier 3 · पेज-इंडेक्स + एजेंट

DEEP & DELIBERATE

hierarchical TOC tree built
at ingest → agent walks tree
→ opens / reads sections
→ generate

किसके लिए सर्वोत्तम

लंबे संरचित दस्तावेज़ों का बहु-चरणीय (मल्टी-हॉप) पठन — कानूनी अनुबंध, वित्तीय 10-K, तकनीकी PDF जहाँ संदर्भ गैर-निकटवर्ती सेक्शनों में फैला होता है।

लेटेंसी:कई सेकंडलागत:सर्वाधिक — पर तभी जब ज़रूरी होबैकएंड:PageIndex · RAPTOR · LightRAG · neo4j-hybrid

राउटर वास्तव में कैसे निर्णय लेता है

अधिकांश प्रकाशित RAG राउटर क्वेरी को पहले से ही जटिलता के आधार पर वर्गीकृत करते हैं। हमारा नहीं करता। हम सीखी हुई रूटिंग का उपयोग करते हैं: हर सफल क्वेरी उस बैकएंड के साथ संग्रहीत की जाती है जिसने उसका उत्तर दिया, और नई क्वेरीज़ का मिलान एम्बेडिंग समानता द्वारा उस इतिहास से किया जाता है।

लुकअप एल्गोरिथम — हर क्वेरी पर जो चलता है

प्रश्न को हैश करें SHA-256 के साथ, 16-वर्ण की कुंजी तक संक्षिप्त करते हुए, और सटीक पूर्व मिलान के लिए Cloudflare KV में प्रति-ग्राहक रूटिंग स्टोर की जाँच करें। यदि इसका उत्तर पहले दिया जा चुका है, तो तुरंत उसी बैकएंड पर भेजें जिसने पिछली बार सबसे अच्छा प्रदर्शन किया था।
मिस होने पर, प्रश्न को एम्बेड करें और ऐतिहासिक प्रश्न एम्बेडिंग के कैश किए गए इंडेक्स के विरुद्ध cosine-सर्च करें। यदि निकटतम पड़ोसी की समानता 0.88 से अधिक है, तो उससे जुड़े बैकएंड पर भेजें।
थ्रेशोल्ड से ऊपर कोई मिलान न होने पर, उस कॉर्पस के लिए ग्राहक के डिफ़ॉल्ट बैकएंड पर फ़ॉलबैक करें।
उत्तर रेंडर होने के बाद, (प्रश्न हैश, बैकएंड, गुणवत्ता स्कोर) टपल को प्रति-ग्राहक रूटिंग-इतिहास स्टोर में वापस लिखा जाता है, जो भविष्य के लुकअप का बीज बनता है।

"वर्गीकृत" के बजाय "सीखा हुआ" क्यों? अनुभवजन्य रूप से एक ही क्वेरी आकार विभिन्न कॉर्पस पर अलग-अलग व्यवहार करता है। कानूनी अनुबंधों पर "Y में X की तुलना करें" Tier 3 पेज-इंडेक्स ट्रैवर्सल चाहता है; वही आकार फ़्लैट FAQ कॉर्पस पर Tier 1 पर ठीक है। रूटिंग मॉडल को क्वेरी सिंटैक्स से अनुमान लगाने के बजाय ऐतिहासिक साक्ष्यों से प्रति-कॉर्पस उस अंतर को सीखने देना, वह डिज़ाइन विकल्प है जो वास्तव में शिप हुआ।

वे दस बैकएंड्स जिनके बीच हम आज रूट करते हैं

राउटर दस नामित बैकएंड्स में से एक पर भेजता है। उनमें से तीन "Tier 3-आकार के" हैं (हायरार्किकल या ग्राफ़-वर्धित); अन्य शुद्ध-वेक्टर इंजन हैं जिन्हें हम विभिन्न परिचालन ट्रेडऑफ़ के साथ Tier 1 के रूप में मानते हैं।

pageindexहायरार्किकल TOC ट्री + एजेंटिक ट्रैवर्सल। Tier 3 का आर्किटाइप।

raptorपुनरावर्ती सारांशित दस्तावेज़ हायरार्की पर ट्री-ट्रैवर्सल रिट्रीवल (ICLR 2024)।

neo4j-hybridग्राफ़-वर्धित रिट्रीवल जो वेक्टर एम्बेडिंग को स्पष्ट एंटिटी / रिलेशनशिप संरचना के साथ जोड़ता है।

lightragफ़्लैट-ग्राफ़ ड्यूल-मोड रिट्रीवल — एंटिटी + कम्युनिटी सर्च, HKU LightRAG दृष्टिकोण।

qdrantहाई-थ्रूपुट, लो-लेटेंसी लुकअप के लिए सेल्फ़-होस्टेड डेंस-वेक्टर इंजन।

cloudflare-v2एज पर Vectorize — Cloudflare के वैश्विक नेटवर्क से सब-300 ms p95।

couchbase-byokमौजूदा परिचालन निर्भरताओं वाले ग्राहकों के लिए BYO Couchbase वेक्टर स्टोर।

vertex-ai-vector-search-v2Google के डेटा स्टैक पर ग्राहकों के लिए Google Cloud Vertex AI वेक्टर सर्च।

mongodb-atlasMongoDB पर डॉक्यूमेंट डेटा चलाने वाले ग्राहकों के लिए Atlas Vector Search।

redis-vector-searchअल्ट्रा-लो-लेटेंसी इन-मेमोरी रिट्रीवल वर्कलोड के लिए Redis वेक्टर सर्च।

Tier 2 (BM25 + डेंस फ़्यूज़न + क्रॉस-एनकोडर रीरैंकर) आज एक कंपोज़ेबल नोड के रूप में हमारे वर्कफ़्लो कैनवस में शिप होता है। ऑटो-राउटर इसे अगले चरण में लक्ष्य बनाता है क्योंकि प्रति-कॉर्पस रूटिंग डेटा इसे न्यायसंगत बनाता है।

API सरफ़ेस — एक एंडपॉइंट, ऑडिट-ग्रेड पारदर्शिता

राउटर आपके कॉलर के लिए अदृश्य है। एक अनुरोध आकार; प्रतिक्रिया में रूटिंग निर्णय शामिल है ताकि आप ऑडिट कर सकें कि किस बैकएंड ने उत्तर दिया (और क्यों)।

# एक एंडपॉइंट। राउटर तय करता है कि कौन-सा बैकएंड उपयोग करना है।
curl -X POST https://api.divinci.app/v1/rag/query \
  -H "Authorization: Bearer $DIVINCI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "question": "What clauses in the 2024 amendment override section 7.3?",
    "corpus":   "legal-contracts-q4"
  }'
# प्रतिक्रिया — वे चंक्स जो एजेंट को उत्तर को आधार बनाने के लिए चाहिए।
{
  "items": [
    {
      "content":  "Section 7.3 is superseded by …",
      "metadata": { "doc": "amendment-2024.pdf", "section": "II.4.b" },
      "score":    0.91
    }
    /* … */
  ],
  "routing": {
    "backend":      "pageindex",           // dispatched tier-3 page-index
    "match_source": "learned-history",     // arena · auto-fix · or fallback
    "similarity":   0.92,                  // ≥ 0.88 threshold
    "ttl_remaining":"23d 14h"              // re-benchmark से पहले freshness window
  }
}

routing मेटाडेटा वर्तमान में आंतरिक रूप से लॉग किया जाता है और ऑडिट ट्रेल के माध्यम से उजागर किया जाता है। इनलाइन प्रतिक्रिया डिलीवरी Q3 2026 में रोल आउट हो रही है।

यह मौजूदा राउटरों से कैसे भिन्न है

RAG रूटिंग कोई नया विचार नहीं है — Adaptive-RAG और Probing-RAG जैसे शैक्षणिक राउटर पहले से ही क्वेरीज़ को जटिलता के आधार पर वर्गीकृत करते हैं। अंतर यह है कि Divinci आर्किटेक्चरल रूप से भिन्न रिट्रीवल स्टैक्स के बीच रूट करता है, आपके अपने ट्रैफ़िक से सीखा हुआ, एक प्रबंधित एंडपॉइंट के पीछे।

उत्पाद	यह किनके बीच रूट करता है	रूटिंग अक्ष	प्रबंधित?
Divinci RAG Routing	10 बैकएंड्स (PageIndex, RAPTOR, LightRAG, neo4j, 6 वेक्टर इंजन)	आर्किटेक्चर · इतिहास से सीखा हुआ	हाँ — एकल एंडपॉइंट
LlamaIndex RouterRetriever	BYO रिट्रीवर्स	LLM/Pydantic सेलेक्टर	नहीं — एक लाइब्रेरी जिसे आप असेंबल करते हैं
Adaptive-RAG (Jeong et al.)	no-retrieval / single-step / iterative	गहराई · क्वेरी जटिलता वर्गीकारक	शोध
Cloudflare AI Search (पूर्व AutoRAG)	एक हाइब्रिड पाइपलाइन	कोई रूटिंग नहीं	हाँ
AWS Bedrock Knowledge Bases	एक हाइब्रिड पाइपलाइन	कोई रूटिंग नहीं	हाँ
Azure AI Search Agentic Retrieval	हाइब्रिड + अलग एजेंटिक मोड	उपयोगकर्ता मैन्युअल रूप से मोड चुनता है	हाँ
VectifyAI PageIndex	एकल आर्किटेक्चर (हायरार्किकल ट्रैवर्सल)	कोई रूटिंग नहीं	OSS स्टैंडअलोन

हमारी पिच की ईमानदार कमज़ोरी: एक अवधारणा के रूप में प्रति-क्वेरी RAG रूटिंग नई नहीं है। हमने रूटिंग का आविष्कार नहीं किया। वास्तविक अंतर यह संयोजन है: (a) गहराई के विभिन्न रूपों के बजाय आर्किटेक्चरल रूप से भिन्न स्टैक्स के बीच रूटिंग, (b) PageIndex / RAPTOR / LightRAG-शैली का हायरार्किकल ट्रैवर्सल एक अलग उत्पाद के बजाय प्रथम-श्रेणी बैकएंड के रूप में शामिल, और (c) एक प्रबंधित एंडपॉइंट के बजाय एक लाइब्रेरी जिसे आप स्वयं असेंबल और संचालित करते हैं।

रूटिंग प्राथमिकताएँ कैसे सीडेड (बीजित) होती हैं

आपका रूटिंग मॉडल पहले से प्रशिक्षित नहीं है — यह आपके ट्रैफ़िक से सीखता है। तीन संकेत रूटिंग-इतिहास स्टोर को फ़ीड करते हैं।

एरीना चयन। कई बैकएंड्स पर RAG Arena के माध्यम से एक क्वेरी चलाएँ, वेरिएंट्स को साथ-साथ स्कोर करें, विजेता चुनें। (प्रश्न, विजेता-बैकएंड) जोड़ी रूटिंग स्टोर में दर्ज होती है।
ऑटो-फ़िक्स आउटपुट। जब हमारा ऑटो-फ़िक्स इंजेस्ट या निर्धारित ऑडिट के दौरान प्रतिनिधि क्वेरीज़ पर तुलनात्मक रिट्रीवल चलाता है, तो प्रति-क्वेरी सर्वोत्तम-प्रदर्शन वाला बैकएंड उसी स्टोर में लिखा जाता है।
प्रोडक्शन फ़ीडबैक। सफल क्वेरीज़ (वे जो हमारे ऑनलाइन मूल्यांकन गेट के माध्यम से आपकी गुणवत्ता सीमा से ऊपर स्कोर करती हैं — regression-testing पोस्ट देखें) अनुरोध-समय पर अपनी (प्रश्न हैश, बैकएंड) जोड़ी को रूटिंग स्टोर में वापस लिखती हैं, 30-दिन के TTL के साथ ताकि आपके कॉर्पस के विकसित होने पर रूटिंग मॉडल ताज़ा बना रहे।

यह वास्तव में कहाँ प्रोडक्शन-ग्रेड है बनाम रोडमैप पर: चरण 1 और 2 आज शिप होते हैं। चरण 3 का स्वचालित फ़ीडबैक लूप आंशिक रूप से शिप हुआ है — सफल क्वेरीज़ वापस लिखती हैं, लेकिन tier-2 (BM25 + RRF + reranker) वर्तमान में ऑटो-रूट किए जाने के बजाय एक वर्कफ़्लो नोड के रूप में संयोजित है। जैसे ही रूटिंग डेटा इसके लिए स्पष्ट जीत की शर्तें दिखाएगा, हम Tier 2 को ऑटो-राउटर में शामिल कर देंगे।

यह सबसे अधिक कब मायने रखता है

समान क्वेरी आकारों वाला एकरूप कॉर्पस इससे बहुत कम लाभ उठाता है — एक बैकएंड मैन्युअल रूप से चुनें और काम पूरा। असली बढ़त मिश्रित कॉर्पस और मिश्रित क्वेरी आकारों में है।

एक कानूनी टीम जो "हमारे मानक अनुबंध में force majeure की परिभाषा क्या है?" (Tier 1, सब-300 ms) और "हमारे 47 विक्रेता अनुबंधों में, किनमें गैर-मानक समाप्ति खंड हैं और पैटर्न क्या हैं?" (Tier 3, कई-सेकंड पेज-इंडेक्स ट्रैवर्सल) दोनों पूछती है, वह एक बैकएंड चुनना नहीं चाहती। वे चाहते हैं कि सरल प्रश्न तेज़ और सस्ता वापस आए, और गहन प्रश्न सही तरीके से वापस आए भले ही उसमें अधिक लागत आए — दो स्टैक्स संचालित किए बिना।

यही वह स्थिति है जहाँ आर्किटेक्चरल रूप से भिन्न बैकएंड्स में रूट करने वाला एक प्रबंधित एंडपॉइंट अपनी जगह बनाता है। यदि आपका ट्रैफ़िक एकरूप है, तो आपको इसकी आवश्यकता नहीं है। यदि आपका ट्रैफ़िक मिश्रित है — अधिकांश वास्तविक एंटरप्राइज़ कॉर्पस ऐसे ही हैं — तो आपको इसकी आवश्यकता है।

गहन पठन और संबंधित उत्पाद

आर्किटेक्चर का गहन विश्लेषण हमारे ब्लॉग पोस्ट The Future of RAG Systems: Beyond Simple Document Retrieval में है। ऊपर चरण 1 को संचालित करने वाला एरीना RAG Arena & Dynamic Routing पर है। रूटिंग निर्णय उसी रिलीज़-मैनिफ़ेस्ट पैटर्न के माध्यम से ऑडिट-एंकर किए जाते हैं जिसका हम प्लेटफ़ॉर्म में उपयोग करते हैं — देखें Validating and Releasing Custom LMs in Regulated Fields। और यदि आप जानना चाहते हैं कि हम रिट्रीवल गुणवत्ता का ऑनलाइन मूल्यांकन कैसे करते हैं (वह संकेत जो ऊपर चरण 3 को फ़ीड करता है), तो regression-testing पोस्ट शुरुआत के लिए सही स्थान है।

RAG रूटिंग — एक API, अनेक आर्किटेक्चर

RAG रूटिंग

तीनों आर्किटेक्चर, संकल्पनात्मक रूप से

किसके लिए सर्वोत्तम

किसके लिए सर्वोत्तम

किसके लिए सर्वोत्तम

राउटर वास्तव में कैसे निर्णय लेता है

लुकअप एल्गोरिथम — हर क्वेरी पर जो चलता है

वे दस बैकएंड्स जिनके बीच हम आज रूट करते हैं

API सरफ़ेस — एक एंडपॉइंट, ऑडिट-ग्रेड पारदर्शिता

यह मौजूदा राउटरों से कैसे भिन्न है

रूटिंग प्राथमिकताएँ कैसे सीडेड (बीजित) होती हैं

यह सबसे अधिक कब मायने रखता है