توجيه RAG — واجهة برمجية واحدة، معماريات متعددة
توجيه RAG
نقطة نهاية واحدة لواجهة برمجية. عشر معماريات استرجاع مدعومة. يتعلَّم الموجِّه من سجل حركة استعلاماتك ويوزِّع كل سؤال جديد إلى النظام الخلفي الأقدر على الإجابة عنه بشكل صحيح — بأقل تكلفة تظل ضمن معيار الجودة لديك.
المعماريات الثلاث، من حيث المفهوم
معظم أنظمة RAG في الإنتاج تشحن معمارية استرجاع واحدة وتعتبر المهمة منتهية. أمَّا نحن فنشحن موجِّهًا يختار بين منظومات متمايزة معماريًا — نادرًا ما يكون الخيار الصحيح هو ذاته لكل استعلام في مجموعتك النصية.
→ stuff context
→ generate
الأنسب لـ
الاستعلام عن معلومة واحدة، الاستعلامات على هيئة أسئلة شائعة، وأسئلة "ما هو X؟" على مجاميع نصوص مقسَّمة إلى مقاطع مسطَّحة.
→ Reciprocal Rank Fusion
→ cross-encoder reranker
→ generate
الأنسب لـ
الاستعلامات التي تتعارض فيها الإشارات المعجمية والدلالية — الرموز، الأسماء، الاختصارات، المفردات التقنية، وسلاسل رسائل الخطأ.
at ingest → agent walks tree
→ opens / reads sections
→ generate
الأنسب لـ
القراءة متعدِّدة القفزات لوثائق طويلة ومنظَّمة — العقود القانونية، نماذج 10-K المالية، وملفات PDF التقنية حيث يمتد السياق عبر أقسام غير متجاورة.
كيف يتَّخذ الموجِّه قراره فعليًا
معظم موجِّهات RAG المنشورة تصنِّف الاستعلام مسبقًا حسب درجة تعقيده. لكن موجِّهنا لا يفعل ذلك. نحن نستخدم التوجيه المتعلَّم: يُخزَّن كل استعلام ناجح مع النظام الخلفي الذي أجاب عنه، وتُطابَق الاستعلامات الجديدة مع هذا السجل عبر تشابه التضمين (embedding).
خوارزمية البحث — ما يجري على كل استعلام
- تجزئة السؤال بـ SHA-256، مع اقتطاعه إلى مفتاح من 16 حرفًا، والبحث في مخزن التوجيه الخاص بكل عميل في Cloudflare KV عن مطابقة سابقة دقيقة. إذا سبقت الإجابة عنه، يُرسَل فورًا إلى النظام الخلفي الذي قدَّم أفضل أداء في المرة السابقة.
- عند عدم وجود مطابقة، يُجرى تضمين السؤال والبحث بتشابه جيب التمام (cosine) في الفهرس المخزَّن لتضمينات الأسئلة التاريخية. إذا تجاوز تشابه أقرب جار 0.88، يُرسَل إلى النظام الخلفي المرتبط به.
- عند عدم وجود مطابقة فوق العتبة، يُرجَع إلى النظام الخلفي الافتراضي للعميل بالنسبة لتلك المجموعة النصية.
- بعد تقديم الإجابة، تُكتَب الثلاثية (تجزئة السؤال، النظام الخلفي، درجة الجودة) في مخزن سجل التوجيه الخاص بالعميل، ممَّا يُغذِّي عمليات البحث المستقبلية.
الأنظمة الخلفية العشرة التي نوجِّه بينها اليوم
يوزِّع الموجِّه الاستعلامات إلى أحد عشرة أنظمة خلفية مسمَّاة. ثلاثة منها بهيئة "Tier 3" (هرمية أو معزَّزة بالرسوم البيانية)؛ والباقي محركات متَّجهات بحتة نعاملها بوصفها Tier 1 مع موازنات تشغيلية مختلفة.
Tier 2 (BM25 + دمج كثيف + إعادة ترتيب بمشفِّر متقاطع) متوفِّر اليوم في لوحة سير العمل لدينا كعقدة قابلة للتركيب. وسيستهدفه الموجِّه التلقائي تاليًا بمجرَّد أن تبرِّر بيانات التوجيه لكل مجموعة نصية ذلك.
واجهة برمجية — نقطة نهاية واحدة، بشفافية على مستوى التدقيق
الموجِّه غير مرئي للمتصل بك. شكل طلب واحد؛ وتتضمَّن الاستجابة قرار التوجيه ليتسنَّى لك تدقيق أي نظام خلفي أجاب (ولماذا).
# نقطة نهاية واحدة. الموجِّه هو من يقرِّر أي نظام خلفي يُستخدَم.
curl -X POST https://api.divinci.app/v1/rag/query \
-H "Authorization: Bearer $DIVINCI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"question": "What clauses in the 2024 amendment override section 7.3?",
"corpus": "legal-contracts-q4"
}'
# الاستجابة — المقاطع التي يحتاجها الوكيل لإسناد الإجابة.
{
"items": [
{
"content": "Section 7.3 is superseded by …",
"metadata": { "doc": "amendment-2024.pdf", "section": "II.4.b" },
"score": 0.91
}
/* … */
],
"routing": {
"backend": "pageindex", // أُرسل إلى فهرس الصفحات من Tier 3
"match_source": "learned-history", // arena · auto-fix · أو fallback
"similarity": 0.92, // عتبة ≥ 0.88
"ttl_remaining":"23d 14h" // نافذة الحداثة قبل إعادة التقييم
}
}
تُسجَّل بيانات routing الوصفية داخليًا في الوقت الحالي وتُكشف عبر سجل التدقيق. وسيُطرح تسليمها داخل الاستجابة مباشرةً عبر الربع الثالث من 2026.
كيف يختلف هذا عن الموجِّهات القائمة
توجيه RAG ليس فكرة جديدة — فالموجِّهات الأكاديمية مثل Adaptive-RAG و Probing-RAG تصنِّف الاستعلامات بالفعل حسب التعقيد. ما يميِّزنا هو أن Divinci يوجِّه عبر منظومات استرجاع متمايزة معماريًا، متعلَّمة من حركتك الخاصة، خلف نقطة نهاية واحدة مُدارة.
| المنتج | ما يوجِّه بينه | محور التوجيه | مُدار؟ |
|---|---|---|---|
| Divinci RAG Routing | 10 أنظمة خلفية (PageIndex، RAPTOR، LightRAG، neo4j، 6 محركات متَّجهات) | المعمارية · متعلَّمة من التاريخ | نعم — نقطة نهاية واحدة |
| LlamaIndex RouterRetriever | مستردِّات تأتي بها بنفسك | منتقي LLM/Pydantic | لا — مكتبة تُجمِّعها بنفسك |
| Adaptive-RAG (Jeong et al.) | لا استرجاع / خطوة واحدة / تكراري | العمق · مصنِّف تعقيد الاستعلام | بحث أكاديمي |
| Cloudflare AI Search (ex-AutoRAG) | خط أنابيب هجين واحد | لا توجيه | نعم |
| AWS Bedrock Knowledge Bases | خط أنابيب هجين واحد | لا توجيه | نعم |
| Azure AI Search Agentic Retrieval | هجين + وضع وكيل منفصل | المستخدم يختار الوضع يدويًا | نعم |
| VectifyAI PageIndex | معمارية واحدة (اجتياز هرمي) | لا توجيه | مفتوح المصدر مستقل |
نقطة الضعف الصادقة في عرضنا: توجيه RAG لكل استعلام كمفهوم ليس جديدًا. لم نخترع التوجيه. التمييز الحقيقي هو تركيبة (أ) التوجيه عبر منظومات متمايزة معماريًا بدلًا من متغيِّرات العمق، و(ب) إدراج الاجتياز الهرمي بأسلوب PageIndex / RAPTOR / LightRAG كنظام خلفي من الدرجة الأولى وليس منتجًا منفصلًا، و(ج) نقطة نهاية واحدة مُدارة بدلًا من مكتبة تُجمِّعها وتشغِّلها بنفسك.
كيف تُبذَر تفضيلات التوجيه
نموذج التوجيه لديك ليس مُدرَّبًا مسبقًا — بل يتعلَّم من حركتك أنت. ثلاث إشارات تغذِّي مخزن سجل التوجيه.
- الاختيار من الحلبة (Arena). شغِّل استعلامًا عبر RAG Arena على أنظمة خلفية متعدِّدة، وقيِّم النسخ جنبًا إلى جنب، واختر الفائزة. يُسجَّل الزوج (السؤال، النظام الخلفي الفائز) في مخزن التوجيه.
- مخرجات الإصلاح التلقائي. حين يُجري الإصلاح التلقائي لدينا عمليات استرجاع مقارَنة على استعلامات تمثيلية خلال الاستيعاب أو التدقيقات المجدولة، يُكتَب أفضل نظام خلفي أداءً لكل استعلام في المخزن ذاته.
- تغذية راجعة من الإنتاج. الاستعلامات الناجحة (تلك التي حقَّقت درجة فوق عتبة الجودة لديك عبر بوابة التقييم الفورية لدينا — راجع مقالة اختبار الانحدار) تكتب زوجها (تجزئة السؤال، النظام الخلفي) في مخزن التوجيه في وقت الطلب، مع TTL مدَّته 30 يومًا حتى يظل نموذج التوجيه طازجًا مع تطوُّر مجموعتك النصية.
متى يكون هذا أكثر أهمية
المجموعة النصية المتجانسة بأشكال استعلامات موحَّدة تستفيد قليلًا — اختر نظامًا خلفيًا واحدًا يدويًا وانتهى الأمر. الميزة الحاسمة تظهر في المجاميع المختلطة وأشكال الاستعلامات المختلطة.
فريق قانوني يطرح في الوقت ذاته سؤال "ما تعريف القوة القاهرة في عقدنا القياسي؟" (Tier 1، أقل من 300 ms) وسؤال "عبر عقود مورِّدينا الـ 47، أيُّها يحتوي بنود إنهاء غير قياسية وما هي الأنماط؟" (Tier 3، اجتياز فهرس صفحات يستغرق عدة ثوان) لا يرغب في اختيار نظام خلفي واحد. هو يريد أن يأتي السؤال البسيط بسرعة وبتكلفة منخفضة، وأن يأتي السؤال العميق بشكل صحيح حتى لو كلَّف أكثر — دون تشغيل منظومتين.
هذه هي الحالة التي تُثبت فيها نقطة نهاية واحدة مُدارة توجِّه عبر أنظمة خلفية متمايزة معماريًا جدواها. إذا كانت حركتك موحَّدة فأنت لا تحتاج إليها. وإذا كانت حركتك مختلطة — كما هو حال معظم المجاميع النصية المؤسسية الحقيقية — فأنت تحتاج إليها.
قراءات أعمق ومنتجات مجاورة
يقبع التحليل المعمَّق للمعمارية في تدوينتنا The Future of RAG Systems: Beyond Simple Document Retrieval. والحلبة التي تُشغِّل الخطوة 1 أعلاه موجودة في RAG Arena & Dynamic Routing. تُرسى قرارات التوجيه عبر نمط بيان الإصدار ذاته الذي نستخدمه في المنصة كلها — راجع Validating and Releasing Custom LMs in Regulated Fields. وإن أردت معرفة كيف نقيِّم جودة الاسترجاع فوريًا (الإشارة التي تغذِّي الخطوة 3 أعلاه)، فإن مقالة اختبار الانحدار هي المكان المناسب للبدء.