RAG रूटिंग — एक API, अनेक आर्किटेक्चर
RAG रूटिंग
एक API एंडपॉइंट। दस समर्थित रिट्रीवल आर्किटेक्चर। राउटर आपके ऐतिहासिक क्वेरी ट्रैफ़िक से सीखता है और हर नए प्रश्न को उस बैकएंड पर भेजता है जो उसका सही उत्तर देने की सबसे अधिक संभावना रखता है — उस सबसे कम लागत पर जो अभी भी आपके गुणवत्ता मानक को पूरा करती है।
तीनों आर्किटेक्चर, संकल्पनात्मक रूप से
अधिकांश प्रोडक्शन RAG सिस्टम एक रिट्रीवल आर्किटेक्चर शिप करते हैं और उसे ही पूर्ण मान लेते हैं। हम एक राउटर शिप करते हैं जो आर्किटेक्चरल रूप से भिन्न स्टैक्स में से चयन करता है — आपके कॉर्पस में हर क्वेरी के लिए सही विकल्प शायद ही कभी एक जैसा होता है।
→ stuff context
→ generate
किसके लिए सर्वोत्तम
एकल-तथ्य लुकअप, FAQ-आकार की क्वेरीज़, फ़्लैट-चंक किए गए कॉर्पस पर "X क्या है?" जैसे प्रश्न।
→ Reciprocal Rank Fusion
→ cross-encoder reranker
→ generate
किसके लिए सर्वोत्तम
वे क्वेरीज़ जहाँ शाब्दिक और सिमेंटिक संकेत असहमत होते हैं — कोड, नाम, संक्षिप्ताक्षर, तकनीकी शब्दावली, एरर स्ट्रिंग्स।
at ingest → agent walks tree
→ opens / reads sections
→ generate
किसके लिए सर्वोत्तम
लंबे संरचित दस्तावेज़ों का बहु-चरणीय (मल्टी-हॉप) पठन — कानूनी अनुबंध, वित्तीय 10-K, तकनीकी PDF जहाँ संदर्भ गैर-निकटवर्ती सेक्शनों में फैला होता है।
राउटर वास्तव में कैसे निर्णय लेता है
अधिकांश प्रकाशित RAG राउटर क्वेरी को पहले से ही जटिलता के आधार पर वर्गीकृत करते हैं। हमारा नहीं करता। हम सीखी हुई रूटिंग का उपयोग करते हैं: हर सफल क्वेरी उस बैकएंड के साथ संग्रहीत की जाती है जिसने उसका उत्तर दिया, और नई क्वेरीज़ का मिलान एम्बेडिंग समानता द्वारा उस इतिहास से किया जाता है।
लुकअप एल्गोरिथम — हर क्वेरी पर जो चलता है
- प्रश्न को हैश करें SHA-256 के साथ, 16-वर्ण की कुंजी तक संक्षिप्त करते हुए, और सटीक पूर्व मिलान के लिए Cloudflare KV में प्रति-ग्राहक रूटिंग स्टोर की जाँच करें। यदि इसका उत्तर पहले दिया जा चुका है, तो तुरंत उसी बैकएंड पर भेजें जिसने पिछली बार सबसे अच्छा प्रदर्शन किया था।
- मिस होने पर, प्रश्न को एम्बेड करें और ऐतिहासिक प्रश्न एम्बेडिंग के कैश किए गए इंडेक्स के विरुद्ध cosine-सर्च करें। यदि निकटतम पड़ोसी की समानता 0.88 से अधिक है, तो उससे जुड़े बैकएंड पर भेजें।
- थ्रेशोल्ड से ऊपर कोई मिलान न होने पर, उस कॉर्पस के लिए ग्राहक के डिफ़ॉल्ट बैकएंड पर फ़ॉलबैक करें।
- उत्तर रेंडर होने के बाद, (प्रश्न हैश, बैकएंड, गुणवत्ता स्कोर) टपल को प्रति-ग्राहक रूटिंग-इतिहास स्टोर में वापस लिखा जाता है, जो भविष्य के लुकअप का बीज बनता है।
वे दस बैकएंड्स जिनके बीच हम आज रूट करते हैं
राउटर दस नामित बैकएंड्स में से एक पर भेजता है। उनमें से तीन "Tier 3-आकार के" हैं (हायरार्किकल या ग्राफ़-वर्धित); अन्य शुद्ध-वेक्टर इंजन हैं जिन्हें हम विभिन्न परिचालन ट्रेडऑफ़ के साथ Tier 1 के रूप में मानते हैं।
Tier 2 (BM25 + डेंस फ़्यूज़न + क्रॉस-एनकोडर रीरैंकर) आज एक कंपोज़ेबल नोड के रूप में हमारे वर्कफ़्लो कैनवस में शिप होता है। ऑटो-राउटर इसे अगले चरण में लक्ष्य बनाता है क्योंकि प्रति-कॉर्पस रूटिंग डेटा इसे न्यायसंगत बनाता है।
API सरफ़ेस — एक एंडपॉइंट, ऑडिट-ग्रेड पारदर्शिता
राउटर आपके कॉलर के लिए अदृश्य है। एक अनुरोध आकार; प्रतिक्रिया में रूटिंग निर्णय शामिल है ताकि आप ऑडिट कर सकें कि किस बैकएंड ने उत्तर दिया (और क्यों)।
# एक एंडपॉइंट। राउटर तय करता है कि कौन-सा बैकएंड उपयोग करना है।
curl -X POST https://api.divinci.app/v1/rag/query \
-H "Authorization: Bearer $DIVINCI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"question": "What clauses in the 2024 amendment override section 7.3?",
"corpus": "legal-contracts-q4"
}'
# प्रतिक्रिया — वे चंक्स जो एजेंट को उत्तर को आधार बनाने के लिए चाहिए।
{
"items": [
{
"content": "Section 7.3 is superseded by …",
"metadata": { "doc": "amendment-2024.pdf", "section": "II.4.b" },
"score": 0.91
}
/* … */
],
"routing": {
"backend": "pageindex", // dispatched tier-3 page-index
"match_source": "learned-history", // arena · auto-fix · or fallback
"similarity": 0.92, // ≥ 0.88 threshold
"ttl_remaining":"23d 14h" // re-benchmark से पहले freshness window
}
}
routing मेटाडेटा वर्तमान में आंतरिक रूप से लॉग किया जाता है और ऑडिट ट्रेल के माध्यम से उजागर किया जाता है। इनलाइन प्रतिक्रिया डिलीवरी Q3 2026 में रोल आउट हो रही है।
यह मौजूदा राउटरों से कैसे भिन्न है
RAG रूटिंग कोई नया विचार नहीं है — Adaptive-RAG और Probing-RAG जैसे शैक्षणिक राउटर पहले से ही क्वेरीज़ को जटिलता के आधार पर वर्गीकृत करते हैं। अंतर यह है कि Divinci आर्किटेक्चरल रूप से भिन्न रिट्रीवल स्टैक्स के बीच रूट करता है, आपके अपने ट्रैफ़िक से सीखा हुआ, एक प्रबंधित एंडपॉइंट के पीछे।
| उत्पाद | यह किनके बीच रूट करता है | रूटिंग अक्ष | प्रबंधित? |
|---|---|---|---|
| Divinci RAG Routing | 10 बैकएंड्स (PageIndex, RAPTOR, LightRAG, neo4j, 6 वेक्टर इंजन) | आर्किटेक्चर · इतिहास से सीखा हुआ | हाँ — एकल एंडपॉइंट |
| LlamaIndex RouterRetriever | BYO रिट्रीवर्स | LLM/Pydantic सेलेक्टर | नहीं — एक लाइब्रेरी जिसे आप असेंबल करते हैं |
| Adaptive-RAG (Jeong et al.) | no-retrieval / single-step / iterative | गहराई · क्वेरी जटिलता वर्गीकारक | शोध |
| Cloudflare AI Search (पूर्व AutoRAG) | एक हाइब्रिड पाइपलाइन | कोई रूटिंग नहीं | हाँ |
| AWS Bedrock Knowledge Bases | एक हाइब्रिड पाइपलाइन | कोई रूटिंग नहीं | हाँ |
| Azure AI Search Agentic Retrieval | हाइब्रिड + अलग एजेंटिक मोड | उपयोगकर्ता मैन्युअल रूप से मोड चुनता है | हाँ |
| VectifyAI PageIndex | एकल आर्किटेक्चर (हायरार्किकल ट्रैवर्सल) | कोई रूटिंग नहीं | OSS स्टैंडअलोन |
हमारी पिच की ईमानदार कमज़ोरी: एक अवधारणा के रूप में प्रति-क्वेरी RAG रूटिंग नई नहीं है। हमने रूटिंग का आविष्कार नहीं किया। वास्तविक अंतर यह संयोजन है: (a) गहराई के विभिन्न रूपों के बजाय आर्किटेक्चरल रूप से भिन्न स्टैक्स के बीच रूटिंग, (b) PageIndex / RAPTOR / LightRAG-शैली का हायरार्किकल ट्रैवर्सल एक अलग उत्पाद के बजाय प्रथम-श्रेणी बैकएंड के रूप में शामिल, और (c) एक प्रबंधित एंडपॉइंट के बजाय एक लाइब्रेरी जिसे आप स्वयं असेंबल और संचालित करते हैं।
रूटिंग प्राथमिकताएँ कैसे सीडेड (बीजित) होती हैं
आपका रूटिंग मॉडल पहले से प्रशिक्षित नहीं है — यह आपके ट्रैफ़िक से सीखता है। तीन संकेत रूटिंग-इतिहास स्टोर को फ़ीड करते हैं।
- एरीना चयन। कई बैकएंड्स पर RAG Arena के माध्यम से एक क्वेरी चलाएँ, वेरिएंट्स को साथ-साथ स्कोर करें, विजेता चुनें। (प्रश्न, विजेता-बैकएंड) जोड़ी रूटिंग स्टोर में दर्ज होती है।
- ऑटो-फ़िक्स आउटपुट। जब हमारा ऑटो-फ़िक्स इंजेस्ट या निर्धारित ऑडिट के दौरान प्रतिनिधि क्वेरीज़ पर तुलनात्मक रिट्रीवल चलाता है, तो प्रति-क्वेरी सर्वोत्तम-प्रदर्शन वाला बैकएंड उसी स्टोर में लिखा जाता है।
- प्रोडक्शन फ़ीडबैक। सफल क्वेरीज़ (वे जो हमारे ऑनलाइन मूल्यांकन गेट के माध्यम से आपकी गुणवत्ता सीमा से ऊपर स्कोर करती हैं — regression-testing पोस्ट देखें) अनुरोध-समय पर अपनी (प्रश्न हैश, बैकएंड) जोड़ी को रूटिंग स्टोर में वापस लिखती हैं, 30-दिन के TTL के साथ ताकि आपके कॉर्पस के विकसित होने पर रूटिंग मॉडल ताज़ा बना रहे।
यह सबसे अधिक कब मायने रखता है
समान क्वेरी आकारों वाला एकरूप कॉर्पस इससे बहुत कम लाभ उठाता है — एक बैकएंड मैन्युअल रूप से चुनें और काम पूरा। असली बढ़त मिश्रित कॉर्पस और मिश्रित क्वेरी आकारों में है।
एक कानूनी टीम जो "हमारे मानक अनुबंध में force majeure की परिभाषा क्या है?" (Tier 1, सब-300 ms) और "हमारे 47 विक्रेता अनुबंधों में, किनमें गैर-मानक समाप्ति खंड हैं और पैटर्न क्या हैं?" (Tier 3, कई-सेकंड पेज-इंडेक्स ट्रैवर्सल) दोनों पूछती है, वह एक बैकएंड चुनना नहीं चाहती। वे चाहते हैं कि सरल प्रश्न तेज़ और सस्ता वापस आए, और गहन प्रश्न सही तरीके से वापस आए भले ही उसमें अधिक लागत आए — दो स्टैक्स संचालित किए बिना।
यही वह स्थिति है जहाँ आर्किटेक्चरल रूप से भिन्न बैकएंड्स में रूट करने वाला एक प्रबंधित एंडपॉइंट अपनी जगह बनाता है। यदि आपका ट्रैफ़िक एकरूप है, तो आपको इसकी आवश्यकता नहीं है। यदि आपका ट्रैफ़िक मिश्रित है — अधिकांश वास्तविक एंटरप्राइज़ कॉर्पस ऐसे ही हैं — तो आपको इसकी आवश्यकता है।
गहन पठन और संबंधित उत्पाद
आर्किटेक्चर का गहन विश्लेषण हमारे ब्लॉग पोस्ट The Future of RAG Systems: Beyond Simple Document Retrieval में है। ऊपर चरण 1 को संचालित करने वाला एरीना RAG Arena & Dynamic Routing पर है। रूटिंग निर्णय उसी रिलीज़-मैनिफ़ेस्ट पैटर्न के माध्यम से ऑडिट-एंकर किए जाते हैं जिसका हम प्लेटफ़ॉर्म में उपयोग करते हैं — देखें Validating and Releasing Custom LMs in Regulated Fields। और यदि आप जानना चाहते हैं कि हम रिट्रीवल गुणवत्ता का ऑनलाइन मूल्यांकन कैसे करते हैं (वह संकेत जो ऊपर चरण 3 को फ़ीड करता है), तो regression-testing पोस्ट शुरुआत के लिए सही स्थान है।