Skip to main content
नवीनतम शोध:जब सर्किट विलीन हो जाता है →12 vindexes on Hugging Face
डेमो का अनुरोध

RAG रूटिंग — एक API, अनेक आर्किटेक्चर

RAG रूटिंग

एक API एंडपॉइंट। दस समर्थित रिट्रीवल आर्किटेक्चर। राउटर आपके ऐतिहासिक क्वेरी ट्रैफ़िक से सीखता है और हर नए प्रश्न को उस बैकएंड पर भेजता है जो उसका सही उत्तर देने की सबसे अधिक संभावना रखता है — उस सबसे कम लागत पर जो अभी भी आपके गुणवत्ता मानक को पूरा करती है।

हमसे बात करें गहन विश्लेषण पढ़ें →

तीनों आर्किटेक्चर, संकल्पनात्मक रूप से

अधिकांश प्रोडक्शन RAG सिस्टम एक रिट्रीवल आर्किटेक्चर शिप करते हैं और उसे ही पूर्ण मान लेते हैं। हम एक राउटर शिप करते हैं जो आर्किटेक्चरल रूप से भिन्न स्टैक्स में से चयन करता है — आपके कॉर्पस में हर क्वेरी के लिए सही विकल्प शायद ही कभी एक जैसा होता है।

Tier 1 · फ़्लैट-वेक्टर RAG
FAST & CHEAP
embed → cosine top-k
→ stuff context
→ generate

किसके लिए सर्वोत्तम

एकल-तथ्य लुकअप, FAQ-आकार की क्वेरीज़, फ़्लैट-चंक किए गए कॉर्पस पर "X क्या है?" जैसे प्रश्न।

लेटेंसी:< 300 ms p95लागत:प्रति क्वेरी कुछ पैसेबैकएंड्स:Qdrant · Cloudflare · Vertex · MongoDB · Redis
Tier 2 · हाइब्रिड + रीरैंक
BALANCED
BM25 lexical + dense vector
→ Reciprocal Rank Fusion
→ cross-encoder reranker
→ generate

किसके लिए सर्वोत्तम

वे क्वेरीज़ जहाँ शाब्दिक और सिमेंटिक संकेत असहमत होते हैं — कोड, नाम, संक्षिप्ताक्षर, तकनीकी शब्दावली, एरर स्ट्रिंग्स।

लेटेंसी:~ 800 msलागत:अभी भी कमआज:कंपोज़ेबल वर्कफ़्लो नोड · ऑटो-राउटर रोडमैप पर
Tier 3 · पेज-इंडेक्स + एजेंट
DEEP & DELIBERATE
hierarchical TOC tree built
at ingest → agent walks tree
→ opens / reads sections
→ generate

किसके लिए सर्वोत्तम

लंबे संरचित दस्तावेज़ों का बहु-चरणीय (मल्टी-हॉप) पठन — कानूनी अनुबंध, वित्तीय 10-K, तकनीकी PDF जहाँ संदर्भ गैर-निकटवर्ती सेक्शनों में फैला होता है।

लेटेंसी:कई सेकंडलागत:सर्वाधिक — पर तभी जब ज़रूरी होबैकएंड:PageIndex · RAPTOR · LightRAG · neo4j-hybrid

राउटर वास्तव में कैसे निर्णय लेता है

अधिकांश प्रकाशित RAG राउटर क्वेरी को पहले से ही जटिलता के आधार पर वर्गीकृत करते हैं। हमारा नहीं करता। हम सीखी हुई रूटिंग का उपयोग करते हैं: हर सफल क्वेरी उस बैकएंड के साथ संग्रहीत की जाती है जिसने उसका उत्तर दिया, और नई क्वेरीज़ का मिलान एम्बेडिंग समानता द्वारा उस इतिहास से किया जाता है।

लुकअप एल्गोरिथम — हर क्वेरी पर जो चलता है

  1. प्रश्न को हैश करें SHA-256 के साथ, 16-वर्ण की कुंजी तक संक्षिप्त करते हुए, और सटीक पूर्व मिलान के लिए Cloudflare KV में प्रति-ग्राहक रूटिंग स्टोर की जाँच करें। यदि इसका उत्तर पहले दिया जा चुका है, तो तुरंत उसी बैकएंड पर भेजें जिसने पिछली बार सबसे अच्छा प्रदर्शन किया था।
  2. मिस होने पर, प्रश्न को एम्बेड करें और ऐतिहासिक प्रश्न एम्बेडिंग के कैश किए गए इंडेक्स के विरुद्ध cosine-सर्च करें। यदि निकटतम पड़ोसी की समानता 0.88 से अधिक है, तो उससे जुड़े बैकएंड पर भेजें।
  3. थ्रेशोल्ड से ऊपर कोई मिलान न होने पर, उस कॉर्पस के लिए ग्राहक के डिफ़ॉल्ट बैकएंड पर फ़ॉलबैक करें।
  4. उत्तर रेंडर होने के बाद, (प्रश्न हैश, बैकएंड, गुणवत्ता स्कोर) टपल को प्रति-ग्राहक रूटिंग-इतिहास स्टोर में वापस लिखा जाता है, जो भविष्य के लुकअप का बीज बनता है।
"वर्गीकृत" के बजाय "सीखा हुआ" क्यों? अनुभवजन्य रूप से एक ही क्वेरी आकार विभिन्न कॉर्पस पर अलग-अलग व्यवहार करता है। कानूनी अनुबंधों पर "Y में X की तुलना करें" Tier 3 पेज-इंडेक्स ट्रैवर्सल चाहता है; वही आकार फ़्लैट FAQ कॉर्पस पर Tier 1 पर ठीक है। रूटिंग मॉडल को क्वेरी सिंटैक्स से अनुमान लगाने के बजाय ऐतिहासिक साक्ष्यों से प्रति-कॉर्पस उस अंतर को सीखने देना, वह डिज़ाइन विकल्प है जो वास्तव में शिप हुआ।

वे दस बैकएंड्स जिनके बीच हम आज रूट करते हैं

राउटर दस नामित बैकएंड्स में से एक पर भेजता है। उनमें से तीन "Tier 3-आकार के" हैं (हायरार्किकल या ग्राफ़-वर्धित); अन्य शुद्ध-वेक्टर इंजन हैं जिन्हें हम विभिन्न परिचालन ट्रेडऑफ़ के साथ Tier 1 के रूप में मानते हैं।

PI
pageindexहायरार्किकल TOC ट्री + एजेंटिक ट्रैवर्सल। Tier 3 का आर्किटाइप।
RT
raptorपुनरावर्ती सारांशित दस्तावेज़ हायरार्की पर ट्री-ट्रैवर्सल रिट्रीवल (ICLR 2024)।
neo4j-hybridग्राफ़-वर्धित रिट्रीवल जो वेक्टर एम्बेडिंग को स्पष्ट एंटिटी / रिलेशनशिप संरचना के साथ जोड़ता है।
LR
lightragफ़्लैट-ग्राफ़ ड्यूल-मोड रिट्रीवल — एंटिटी + कम्युनिटी सर्च, HKU LightRAG दृष्टिकोण।
qdrantहाई-थ्रूपुट, लो-लेटेंसी लुकअप के लिए सेल्फ़-होस्टेड डेंस-वेक्टर इंजन।
cloudflare-v2एज पर Vectorize — Cloudflare के वैश्विक नेटवर्क से सब-300 ms p95।
couchbase-byokमौजूदा परिचालन निर्भरताओं वाले ग्राहकों के लिए BYO Couchbase वेक्टर स्टोर।
vertex-ai-vector-search-v2Google के डेटा स्टैक पर ग्राहकों के लिए Google Cloud Vertex AI वेक्टर सर्च।
mongodb-atlasMongoDB पर डॉक्यूमेंट डेटा चलाने वाले ग्राहकों के लिए Atlas Vector Search।
redis-vector-searchअल्ट्रा-लो-लेटेंसी इन-मेमोरी रिट्रीवल वर्कलोड के लिए Redis वेक्टर सर्च।

Tier 2 (BM25 + डेंस फ़्यूज़न + क्रॉस-एनकोडर रीरैंकर) आज एक कंपोज़ेबल नोड के रूप में हमारे वर्कफ़्लो कैनवस में शिप होता है। ऑटो-राउटर इसे अगले चरण में लक्ष्य बनाता है क्योंकि प्रति-कॉर्पस रूटिंग डेटा इसे न्यायसंगत बनाता है।

API सरफ़ेस — एक एंडपॉइंट, ऑडिट-ग्रेड पारदर्शिता

राउटर आपके कॉलर के लिए अदृश्य है। एक अनुरोध आकार; प्रतिक्रिया में रूटिंग निर्णय शामिल है ताकि आप ऑडिट कर सकें कि किस बैकएंड ने उत्तर दिया (और क्यों)।

# एक एंडपॉइंट। राउटर तय करता है कि कौन-सा बैकएंड उपयोग करना है।
curl -X POST https://api.divinci.app/v1/rag/query \
  -H "Authorization: Bearer $DIVINCI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "question": "What clauses in the 2024 amendment override section 7.3?",
    "corpus":   "legal-contracts-q4"
  }'
# प्रतिक्रिया — वे चंक्स जो एजेंट को उत्तर को आधार बनाने के लिए चाहिए।
{
  "items": [
    {
      "content":  "Section 7.3 is superseded by …",
      "metadata": { "doc": "amendment-2024.pdf", "section": "II.4.b" },
      "score":    0.91
    }
    /* … */
  ],
  "routing": {
    "backend":      "pageindex",           // dispatched tier-3 page-index
    "match_source": "learned-history",     // arena · auto-fix · or fallback
    "similarity":   0.92,                  // ≥ 0.88 threshold
    "ttl_remaining":"23d 14h"              // re-benchmark से पहले freshness window
  }
}

routing मेटाडेटा वर्तमान में आंतरिक रूप से लॉग किया जाता है और ऑडिट ट्रेल के माध्यम से उजागर किया जाता है। इनलाइन प्रतिक्रिया डिलीवरी Q3 2026 में रोल आउट हो रही है।

यह मौजूदा राउटरों से कैसे भिन्न है

RAG रूटिंग कोई नया विचार नहीं है — Adaptive-RAG और Probing-RAG जैसे शैक्षणिक राउटर पहले से ही क्वेरीज़ को जटिलता के आधार पर वर्गीकृत करते हैं। अंतर यह है कि Divinci आर्किटेक्चरल रूप से भिन्न रिट्रीवल स्टैक्स के बीच रूट करता है, आपके अपने ट्रैफ़िक से सीखा हुआ, एक प्रबंधित एंडपॉइंट के पीछे।

उत्पादयह किनके बीच रूट करता हैरूटिंग अक्षप्रबंधित?
Divinci RAG Routing10 बैकएंड्स (PageIndex, RAPTOR, LightRAG, neo4j, 6 वेक्टर इंजन)आर्किटेक्चर · इतिहास से सीखा हुआहाँ — एकल एंडपॉइंट
LlamaIndex RouterRetrieverBYO रिट्रीवर्सLLM/Pydantic सेलेक्टरनहीं — एक लाइब्रेरी जिसे आप असेंबल करते हैं
Adaptive-RAG (Jeong et al.)no-retrieval / single-step / iterativeगहराई · क्वेरी जटिलता वर्गीकारकशोध
Cloudflare AI Search (पूर्व AutoRAG)एक हाइब्रिड पाइपलाइनकोई रूटिंग नहींहाँ
AWS Bedrock Knowledge Basesएक हाइब्रिड पाइपलाइनकोई रूटिंग नहींहाँ
Azure AI Search Agentic Retrievalहाइब्रिड + अलग एजेंटिक मोडउपयोगकर्ता मैन्युअल रूप से मोड चुनता हैहाँ
VectifyAI PageIndexएकल आर्किटेक्चर (हायरार्किकल ट्रैवर्सल)कोई रूटिंग नहींOSS स्टैंडअलोन

हमारी पिच की ईमानदार कमज़ोरी: एक अवधारणा के रूप में प्रति-क्वेरी RAG रूटिंग नई नहीं है। हमने रूटिंग का आविष्कार नहीं किया। वास्तविक अंतर यह संयोजन है: (a) गहराई के विभिन्न रूपों के बजाय आर्किटेक्चरल रूप से भिन्न स्टैक्स के बीच रूटिंग, (b) PageIndex / RAPTOR / LightRAG-शैली का हायरार्किकल ट्रैवर्सल एक अलग उत्पाद के बजाय प्रथम-श्रेणी बैकएंड के रूप में शामिल, और (c) एक प्रबंधित एंडपॉइंट के बजाय एक लाइब्रेरी जिसे आप स्वयं असेंबल और संचालित करते हैं।

रूटिंग प्राथमिकताएँ कैसे सीडेड (बीजित) होती हैं

आपका रूटिंग मॉडल पहले से प्रशिक्षित नहीं है — यह आपके ट्रैफ़िक से सीखता है। तीन संकेत रूटिंग-इतिहास स्टोर को फ़ीड करते हैं।

  1. एरीना चयन। कई बैकएंड्स पर RAG Arena के माध्यम से एक क्वेरी चलाएँ, वेरिएंट्स को साथ-साथ स्कोर करें, विजेता चुनें। (प्रश्न, विजेता-बैकएंड) जोड़ी रूटिंग स्टोर में दर्ज होती है।
  2. ऑटो-फ़िक्स आउटपुट। जब हमारा ऑटो-फ़िक्स इंजेस्ट या निर्धारित ऑडिट के दौरान प्रतिनिधि क्वेरीज़ पर तुलनात्मक रिट्रीवल चलाता है, तो प्रति-क्वेरी सर्वोत्तम-प्रदर्शन वाला बैकएंड उसी स्टोर में लिखा जाता है।
  3. प्रोडक्शन फ़ीडबैक। सफल क्वेरीज़ (वे जो हमारे ऑनलाइन मूल्यांकन गेट के माध्यम से आपकी गुणवत्ता सीमा से ऊपर स्कोर करती हैं — regression-testing पोस्ट देखें) अनुरोध-समय पर अपनी (प्रश्न हैश, बैकएंड) जोड़ी को रूटिंग स्टोर में वापस लिखती हैं, 30-दिन के TTL के साथ ताकि आपके कॉर्पस के विकसित होने पर रूटिंग मॉडल ताज़ा बना रहे।
यह वास्तव में कहाँ प्रोडक्शन-ग्रेड है बनाम रोडमैप पर: चरण 1 और 2 आज शिप होते हैं। चरण 3 का स्वचालित फ़ीडबैक लूप आंशिक रूप से शिप हुआ है — सफल क्वेरीज़ वापस लिखती हैं, लेकिन tier-2 (BM25 + RRF + reranker) वर्तमान में ऑटो-रूट किए जाने के बजाय एक वर्कफ़्लो नोड के रूप में संयोजित है। जैसे ही रूटिंग डेटा इसके लिए स्पष्ट जीत की शर्तें दिखाएगा, हम Tier 2 को ऑटो-राउटर में शामिल कर देंगे।

यह सबसे अधिक कब मायने रखता है

समान क्वेरी आकारों वाला एकरूप कॉर्पस इससे बहुत कम लाभ उठाता है — एक बैकएंड मैन्युअल रूप से चुनें और काम पूरा। असली बढ़त मिश्रित कॉर्पस और मिश्रित क्वेरी आकारों में है।

एक कानूनी टीम जो "हमारे मानक अनुबंध में force majeure की परिभाषा क्या है?" (Tier 1, सब-300 ms) और "हमारे 47 विक्रेता अनुबंधों में, किनमें गैर-मानक समाप्ति खंड हैं और पैटर्न क्या हैं?" (Tier 3, कई-सेकंड पेज-इंडेक्स ट्रैवर्सल) दोनों पूछती है, वह एक बैकएंड चुनना नहीं चाहती। वे चाहते हैं कि सरल प्रश्न तेज़ और सस्ता वापस आए, और गहन प्रश्न सही तरीके से वापस आए भले ही उसमें अधिक लागत आए — दो स्टैक्स संचालित किए बिना।

यही वह स्थिति है जहाँ आर्किटेक्चरल रूप से भिन्न बैकएंड्स में रूट करने वाला एक प्रबंधित एंडपॉइंट अपनी जगह बनाता है। यदि आपका ट्रैफ़िक एकरूप है, तो आपको इसकी आवश्यकता नहीं है। यदि आपका ट्रैफ़िक मिश्रित है — अधिकांश वास्तविक एंटरप्राइज़ कॉर्पस ऐसे ही हैं — तो आपको इसकी आवश्यकता है।