توجيه RAG

نقطة نهاية واحدة لواجهة برمجية. عشر معماريات استرجاع مدعومة. يتعلَّم الموجِّه من سجل حركة استعلاماتك ويوزِّع كل سؤال جديد إلى النظام الخلفي الأقدر على الإجابة عنه بشكل صحيح — بأقل تكلفة تظل ضمن معيار الجودة لديك.

تحدَّث إلينا اقرأ التحليل المعمَّق ←

المعماريات الثلاث، من حيث المفهوم

معظم أنظمة RAG في الإنتاج تشحن معمارية استرجاع واحدة وتعتبر المهمة منتهية. أمَّا نحن فنشحن موجِّهًا يختار بين منظومات متمايزة معماريًا — نادرًا ما يكون الخيار الصحيح هو ذاته لكل استعلام في مجموعتك النصية.

Tier 1 · RAG القائم على المتجهات المسطَّحة

FAST & CHEAP

embed → cosine top-k
→ stuff context
→ generate

الأنسب لـ

الاستعلام عن معلومة واحدة، الاستعلامات على هيئة أسئلة شائعة، وأسئلة "ما هو X؟" على مجاميع نصوص مقسَّمة إلى مقاطع مسطَّحة.

زمن الاستجابة:< 300 ms p95التكلفة:قروش لكل استعلامالأنظمة الخلفية:Qdrant · Cloudflare · Vertex · MongoDB · Redis

Tier 2 · هجين + إعادة ترتيب

BALANCED

BM25 lexical + dense vector
→ Reciprocal Rank Fusion
→ cross-encoder reranker
→ generate

الأنسب لـ

الاستعلامات التي تتعارض فيها الإشارات المعجمية والدلالية — الرموز، الأسماء، الاختصارات، المفردات التقنية، وسلاسل رسائل الخطأ.

زمن الاستجابة:~ 800 msالتكلفة:لا تزال منخفضةاليوم:عقدة قابلة للتركيب في سير العمل · الموجِّه التلقائي ضمن خارطة الطريق

Tier 3 · فهرس صفحات + وكيل

DEEP & DELIBERATE

hierarchical TOC tree built
at ingest → agent walks tree
→ opens / reads sections
→ generate

الأنسب لـ

القراءة متعدِّدة القفزات لوثائق طويلة ومنظَّمة — العقود القانونية، نماذج 10-K المالية، وملفات PDF التقنية حيث يمتد السياق عبر أقسام غير متجاورة.

زمن الاستجابة:عدة ثوانالتكلفة:الأعلى — لكن فقط عند الحاجةالنظام الخلفي:PageIndex · RAPTOR · LightRAG · neo4j-hybrid

كيف يتَّخذ الموجِّه قراره فعليًا

معظم موجِّهات RAG المنشورة تصنِّف الاستعلام مسبقًا حسب درجة تعقيده. لكن موجِّهنا لا يفعل ذلك. نحن نستخدم التوجيه المتعلَّم: يُخزَّن كل استعلام ناجح مع النظام الخلفي الذي أجاب عنه، وتُطابَق الاستعلامات الجديدة مع هذا السجل عبر تشابه التضمين (embedding).

خوارزمية البحث — ما يجري على كل استعلام

تجزئة السؤال بـ SHA-256، مع اقتطاعه إلى مفتاح من 16 حرفًا، والبحث في مخزن التوجيه الخاص بكل عميل في Cloudflare KV عن مطابقة سابقة دقيقة. إذا سبقت الإجابة عنه، يُرسَل فورًا إلى النظام الخلفي الذي قدَّم أفضل أداء في المرة السابقة.
عند عدم وجود مطابقة، يُجرى تضمين السؤال والبحث بتشابه جيب التمام (cosine) في الفهرس المخزَّن لتضمينات الأسئلة التاريخية. إذا تجاوز تشابه أقرب جار 0.88، يُرسَل إلى النظام الخلفي المرتبط به.
عند عدم وجود مطابقة فوق العتبة، يُرجَع إلى النظام الخلفي الافتراضي للعميل بالنسبة لتلك المجموعة النصية.
بعد تقديم الإجابة، تُكتَب الثلاثية (تجزئة السؤال، النظام الخلفي، درجة الجودة) في مخزن سجل التوجيه الخاص بالعميل، ممَّا يُغذِّي عمليات البحث المستقبلية.

لماذا "متعلَّم" بدلًا من "مُصنَّف"؟ تجريبيًا، يتصرَّف الشكل ذاته من الاستعلام بصورة مختلفة على مجاميع نصوص مختلفة. سؤال "قارن بين X عبر Y" على العقود القانونية يحتاج إلى تنقُّل Tier 3 ضمن فهرس الصفحات؛ أمَّا الشكل نفسه على مجموعة أسئلة شائعة مسطَّحة، فيكفي فيه Tier 1. السماح لنموذج التوجيه بتعلُّم هذا التمييز لكل مجموعة نصية اعتمادًا على الأدلة التاريخية، بدلًا من تخمينه من بنية الاستعلام، هو القرار التصميمي الذي شُحن فعليًا.

الأنظمة الخلفية العشرة التي نوجِّه بينها اليوم

يوزِّع الموجِّه الاستعلامات إلى أحد عشرة أنظمة خلفية مسمَّاة. ثلاثة منها بهيئة "Tier 3" (هرمية أو معزَّزة بالرسوم البيانية)؛ والباقي محركات متَّجهات بحتة نعاملها بوصفها Tier 1 مع موازنات تشغيلية مختلفة.

pageindexشجرة فهرس محتويات هرمية + تنقُّل وكيل ذكي. النموذج المثالي لـ Tier 3.

raptorاسترجاع باجتياز الشجرة فوق هرميات وثائق مُلخَّصة بشكل تكراري (ICLR 2024).

neo4j-hybridاسترجاع معزَّز بالرسم البياني يجمع بين تضمينات المتجهات والبنية الصريحة للكيانات والعلاقات.

lightragاسترجاع ثنائي الوضع برسم بياني مسطَّح — بحث الكيانات والمجتمعات، وهو نهج LightRAG من جامعة هونغ كونغ.

qdrantمحرك متَّجهات كثيف يُستضاف ذاتيًا، لعمليات بحث عالية الإنتاجية ومنخفضة الكمون.

cloudflare-v2Vectorize عند الحافة — أقل من 300 ms p95 من شبكة Cloudflare العالمية.

couchbase-byokمتجر متَّجهات Couchbase تأتي به بنفسك (BYO) للعملاء ذوي التبعيات التشغيلية القائمة.

vertex-ai-vector-search-v2بحث المتجهات في Vertex AI من Google Cloud للعملاء على منظومة بيانات Google.

mongodb-atlasAtlas Vector Search للعملاء الذين يديرون بيانات الوثائق على MongoDB.

redis-vector-searchبحث متَّجهات Redis لأحمال استرجاع في الذاكرة بكمون منخفض جدًا.

Tier 2 (BM25 + دمج كثيف + إعادة ترتيب بمشفِّر متقاطع) متوفِّر اليوم في لوحة سير العمل لدينا كعقدة قابلة للتركيب. وسيستهدفه الموجِّه التلقائي تاليًا بمجرَّد أن تبرِّر بيانات التوجيه لكل مجموعة نصية ذلك.

واجهة برمجية — نقطة نهاية واحدة، بشفافية على مستوى التدقيق

الموجِّه غير مرئي للمتصل بك. شكل طلب واحد؛ وتتضمَّن الاستجابة قرار التوجيه ليتسنَّى لك تدقيق أي نظام خلفي أجاب (ولماذا).

# نقطة نهاية واحدة. الموجِّه هو من يقرِّر أي نظام خلفي يُستخدَم.
curl -X POST https://api.divinci.app/v1/rag/query \
  -H "Authorization: Bearer $DIVINCI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "question": "What clauses in the 2024 amendment override section 7.3?",
    "corpus":   "legal-contracts-q4"
  }'
# الاستجابة — المقاطع التي يحتاجها الوكيل لإسناد الإجابة.
{
  "items": [
    {
      "content":  "Section 7.3 is superseded by …",
      "metadata": { "doc": "amendment-2024.pdf", "section": "II.4.b" },
      "score":    0.91
    }
    /* … */
  ],
  "routing": {
    "backend":      "pageindex",           // أُرسل إلى فهرس الصفحات من Tier 3
    "match_source": "learned-history",     // arena · auto-fix · أو fallback
    "similarity":   0.92,                  // عتبة ≥ 0.88
    "ttl_remaining":"23d 14h"              // نافذة الحداثة قبل إعادة التقييم
  }
}

تُسجَّل بيانات routing الوصفية داخليًا في الوقت الحالي وتُكشف عبر سجل التدقيق. وسيُطرح تسليمها داخل الاستجابة مباشرةً عبر الربع الثالث من 2026.

كيف يختلف هذا عن الموجِّهات القائمة

توجيه RAG ليس فكرة جديدة — فالموجِّهات الأكاديمية مثل Adaptive-RAG و Probing-RAG تصنِّف الاستعلامات بالفعل حسب التعقيد. ما يميِّزنا هو أن Divinci يوجِّه عبر منظومات استرجاع متمايزة معماريًا، متعلَّمة من حركتك الخاصة، خلف نقطة نهاية واحدة مُدارة.

المنتج	ما يوجِّه بينه	محور التوجيه	مُدار؟
Divinci RAG Routing	10 أنظمة خلفية (PageIndex، RAPTOR، LightRAG، neo4j، 6 محركات متَّجهات)	المعمارية · متعلَّمة من التاريخ	نعم — نقطة نهاية واحدة
LlamaIndex RouterRetriever	مستردِّات تأتي بها بنفسك	منتقي LLM/Pydantic	لا — مكتبة تُجمِّعها بنفسك
Adaptive-RAG (Jeong et al.)	لا استرجاع / خطوة واحدة / تكراري	العمق · مصنِّف تعقيد الاستعلام	بحث أكاديمي
Cloudflare AI Search (ex-AutoRAG)	خط أنابيب هجين واحد	لا توجيه	نعم
AWS Bedrock Knowledge Bases	خط أنابيب هجين واحد	لا توجيه	نعم
Azure AI Search Agentic Retrieval	هجين + وضع وكيل منفصل	المستخدم يختار الوضع يدويًا	نعم
VectifyAI PageIndex	معمارية واحدة (اجتياز هرمي)	لا توجيه	مفتوح المصدر مستقل

نقطة الضعف الصادقة في عرضنا: توجيه RAG لكل استعلام كمفهوم ليس جديدًا. لم نخترع التوجيه. التمييز الحقيقي هو تركيبة (أ) التوجيه عبر منظومات متمايزة معماريًا بدلًا من متغيِّرات العمق، و(ب) إدراج الاجتياز الهرمي بأسلوب PageIndex / RAPTOR / LightRAG كنظام خلفي من الدرجة الأولى وليس منتجًا منفصلًا، و(ج) نقطة نهاية واحدة مُدارة بدلًا من مكتبة تُجمِّعها وتشغِّلها بنفسك.

كيف تُبذَر تفضيلات التوجيه

نموذج التوجيه لديك ليس مُدرَّبًا مسبقًا — بل يتعلَّم من حركتك أنت. ثلاث إشارات تغذِّي مخزن سجل التوجيه.

الاختيار من الحلبة (Arena). شغِّل استعلامًا عبر RAG Arena على أنظمة خلفية متعدِّدة، وقيِّم النسخ جنبًا إلى جنب، واختر الفائزة. يُسجَّل الزوج (السؤال، النظام الخلفي الفائز) في مخزن التوجيه.
مخرجات الإصلاح التلقائي. حين يُجري الإصلاح التلقائي لدينا عمليات استرجاع مقارَنة على استعلامات تمثيلية خلال الاستيعاب أو التدقيقات المجدولة، يُكتَب أفضل نظام خلفي أداءً لكل استعلام في المخزن ذاته.
تغذية راجعة من الإنتاج. الاستعلامات الناجحة (تلك التي حقَّقت درجة فوق عتبة الجودة لديك عبر بوابة التقييم الفورية لدينا — راجع مقالة اختبار الانحدار) تكتب زوجها (تجزئة السؤال، النظام الخلفي) في مخزن التوجيه في وقت الطلب، مع TTL مدَّته 30 يومًا حتى يظل نموذج التوجيه طازجًا مع تطوُّر مجموعتك النصية.

أين هذا فعليًا على مستوى الإنتاج وأين هو ضمن خارطة الطريق: الخطوتان 1 و2 مشحونتان اليوم. حلقة التغذية الراجعة التلقائية في الخطوة 3 مشحونة جزئيًا — الاستعلامات الناجحة تكتب رجوعيًا، لكن Tier 2 (BM25 + RRF + معيد ترتيب) مُركَّب حاليًا كعقدة سير عمل وليس موجَّهًا تلقائيًا. سندمج Tier 2 في الموجِّه التلقائي حالما تُظهر بيانات التوجيه شروط فوز واضحة له.

متى يكون هذا أكثر أهمية

المجموعة النصية المتجانسة بأشكال استعلامات موحَّدة تستفيد قليلًا — اختر نظامًا خلفيًا واحدًا يدويًا وانتهى الأمر. الميزة الحاسمة تظهر في المجاميع المختلطة وأشكال الاستعلامات المختلطة.

فريق قانوني يطرح في الوقت ذاته سؤال "ما تعريف القوة القاهرة في عقدنا القياسي؟" (Tier 1، أقل من 300 ms) وسؤال "عبر عقود مورِّدينا الـ 47، أيُّها يحتوي بنود إنهاء غير قياسية وما هي الأنماط؟" (Tier 3، اجتياز فهرس صفحات يستغرق عدة ثوان) لا يرغب في اختيار نظام خلفي واحد. هو يريد أن يأتي السؤال البسيط بسرعة وبتكلفة منخفضة، وأن يأتي السؤال العميق بشكل صحيح حتى لو كلَّف أكثر — دون تشغيل منظومتين.

هذه هي الحالة التي تُثبت فيها نقطة نهاية واحدة مُدارة توجِّه عبر أنظمة خلفية متمايزة معماريًا جدواها. إذا كانت حركتك موحَّدة فأنت لا تحتاج إليها. وإذا كانت حركتك مختلطة — كما هو حال معظم المجاميع النصية المؤسسية الحقيقية — فأنت تحتاج إليها.

قراءات أعمق ومنتجات مجاورة

يقبع التحليل المعمَّق للمعمارية في تدوينتنا The Future of RAG Systems: Beyond Simple Document Retrieval. والحلبة التي تُشغِّل الخطوة 1 أعلاه موجودة في RAG Arena & Dynamic Routing. تُرسى قرارات التوجيه عبر نمط بيان الإصدار ذاته الذي نستخدمه في المنصة كلها — راجع Validating and Releasing Custom LMs in Regulated Fields. وإن أردت معرفة كيف نقيِّم جودة الاسترجاع فوريًا (الإشارة التي تغذِّي الخطوة 3 أعلاه)، فإن مقالة اختبار الانحدار هي المكان المناسب للبدء.

توجيه RAG — واجهة برمجية واحدة، معماريات متعددة

توجيه RAG

المعماريات الثلاث، من حيث المفهوم

الأنسب لـ

الأنسب لـ

الأنسب لـ

كيف يتَّخذ الموجِّه قراره فعليًا

خوارزمية البحث — ما يجري على كل استعلام

الأنظمة الخلفية العشرة التي نوجِّه بينها اليوم

واجهة برمجية — نقطة نهاية واحدة، بشفافية على مستوى التدقيق

كيف يختلف هذا عن الموجِّهات القائمة

كيف تُبذَر تفضيلات التوجيه

متى يكون هذا أكثر أهمية