تخطى إلى المحتوى الرئيسي
أحدث الأبحاث:← عندما تذوب الدائرة12 vindexes on Hugging Face
طلب عرض تجريبي

توجيه RAG — واجهة برمجية واحدة، معماريات متعددة

توجيه RAG

نقطة نهاية واحدة لواجهة برمجية. عشر معماريات استرجاع مدعومة. يتعلَّم الموجِّه من سجل حركة استعلاماتك ويوزِّع كل سؤال جديد إلى النظام الخلفي الأقدر على الإجابة عنه بشكل صحيح — بأقل تكلفة تظل ضمن معيار الجودة لديك.

تحدَّث إلينا اقرأ التحليل المعمَّق ←

المعماريات الثلاث، من حيث المفهوم

معظم أنظمة RAG في الإنتاج تشحن معمارية استرجاع واحدة وتعتبر المهمة منتهية. أمَّا نحن فنشحن موجِّهًا يختار بين منظومات متمايزة معماريًا — نادرًا ما يكون الخيار الصحيح هو ذاته لكل استعلام في مجموعتك النصية.

Tier 1 · RAG القائم على المتجهات المسطَّحة
FAST & CHEAP
embed → cosine top-k
→ stuff context
→ generate

الأنسب لـ

الاستعلام عن معلومة واحدة، الاستعلامات على هيئة أسئلة شائعة، وأسئلة "ما هو X؟" على مجاميع نصوص مقسَّمة إلى مقاطع مسطَّحة.

زمن الاستجابة:< 300 ms p95التكلفة:قروش لكل استعلامالأنظمة الخلفية:Qdrant · Cloudflare · Vertex · MongoDB · Redis
Tier 2 · هجين + إعادة ترتيب
BALANCED
BM25 lexical + dense vector
→ Reciprocal Rank Fusion
→ cross-encoder reranker
→ generate

الأنسب لـ

الاستعلامات التي تتعارض فيها الإشارات المعجمية والدلالية — الرموز، الأسماء، الاختصارات، المفردات التقنية، وسلاسل رسائل الخطأ.

زمن الاستجابة:~ 800 msالتكلفة:لا تزال منخفضةاليوم:عقدة قابلة للتركيب في سير العمل · الموجِّه التلقائي ضمن خارطة الطريق
Tier 3 · فهرس صفحات + وكيل
DEEP & DELIBERATE
hierarchical TOC tree built
at ingest → agent walks tree
→ opens / reads sections
→ generate

الأنسب لـ

القراءة متعدِّدة القفزات لوثائق طويلة ومنظَّمة — العقود القانونية، نماذج 10-K المالية، وملفات PDF التقنية حيث يمتد السياق عبر أقسام غير متجاورة.

زمن الاستجابة:عدة ثوانالتكلفة:الأعلى — لكن فقط عند الحاجةالنظام الخلفي:PageIndex · RAPTOR · LightRAG · neo4j-hybrid

كيف يتَّخذ الموجِّه قراره فعليًا

معظم موجِّهات RAG المنشورة تصنِّف الاستعلام مسبقًا حسب درجة تعقيده. لكن موجِّهنا لا يفعل ذلك. نحن نستخدم التوجيه المتعلَّم: يُخزَّن كل استعلام ناجح مع النظام الخلفي الذي أجاب عنه، وتُطابَق الاستعلامات الجديدة مع هذا السجل عبر تشابه التضمين (embedding).

خوارزمية البحث — ما يجري على كل استعلام

  1. تجزئة السؤال بـ SHA-256، مع اقتطاعه إلى مفتاح من 16 حرفًا، والبحث في مخزن التوجيه الخاص بكل عميل في Cloudflare KV عن مطابقة سابقة دقيقة. إذا سبقت الإجابة عنه، يُرسَل فورًا إلى النظام الخلفي الذي قدَّم أفضل أداء في المرة السابقة.
  2. عند عدم وجود مطابقة، يُجرى تضمين السؤال والبحث بتشابه جيب التمام (cosine) في الفهرس المخزَّن لتضمينات الأسئلة التاريخية. إذا تجاوز تشابه أقرب جار 0.88، يُرسَل إلى النظام الخلفي المرتبط به.
  3. عند عدم وجود مطابقة فوق العتبة، يُرجَع إلى النظام الخلفي الافتراضي للعميل بالنسبة لتلك المجموعة النصية.
  4. بعد تقديم الإجابة، تُكتَب الثلاثية (تجزئة السؤال، النظام الخلفي، درجة الجودة) في مخزن سجل التوجيه الخاص بالعميل، ممَّا يُغذِّي عمليات البحث المستقبلية.
لماذا "متعلَّم" بدلًا من "مُصنَّف"؟ تجريبيًا، يتصرَّف الشكل ذاته من الاستعلام بصورة مختلفة على مجاميع نصوص مختلفة. سؤال "قارن بين X عبر Y" على العقود القانونية يحتاج إلى تنقُّل Tier 3 ضمن فهرس الصفحات؛ أمَّا الشكل نفسه على مجموعة أسئلة شائعة مسطَّحة، فيكفي فيه Tier 1. السماح لنموذج التوجيه بتعلُّم هذا التمييز لكل مجموعة نصية اعتمادًا على الأدلة التاريخية، بدلًا من تخمينه من بنية الاستعلام، هو القرار التصميمي الذي شُحن فعليًا.

الأنظمة الخلفية العشرة التي نوجِّه بينها اليوم

يوزِّع الموجِّه الاستعلامات إلى أحد عشرة أنظمة خلفية مسمَّاة. ثلاثة منها بهيئة "Tier 3" (هرمية أو معزَّزة بالرسوم البيانية)؛ والباقي محركات متَّجهات بحتة نعاملها بوصفها Tier 1 مع موازنات تشغيلية مختلفة.

PI
pageindexشجرة فهرس محتويات هرمية + تنقُّل وكيل ذكي. النموذج المثالي لـ Tier 3.
RT
raptorاسترجاع باجتياز الشجرة فوق هرميات وثائق مُلخَّصة بشكل تكراري (ICLR 2024).
neo4j-hybridاسترجاع معزَّز بالرسم البياني يجمع بين تضمينات المتجهات والبنية الصريحة للكيانات والعلاقات.
LR
lightragاسترجاع ثنائي الوضع برسم بياني مسطَّح — بحث الكيانات والمجتمعات، وهو نهج LightRAG من جامعة هونغ كونغ.
qdrantمحرك متَّجهات كثيف يُستضاف ذاتيًا، لعمليات بحث عالية الإنتاجية ومنخفضة الكمون.
cloudflare-v2Vectorize عند الحافة — أقل من 300 ms p95 من شبكة Cloudflare العالمية.
couchbase-byokمتجر متَّجهات Couchbase تأتي به بنفسك (BYO) للعملاء ذوي التبعيات التشغيلية القائمة.
vertex-ai-vector-search-v2بحث المتجهات في Vertex AI من Google Cloud للعملاء على منظومة بيانات Google.
mongodb-atlasAtlas Vector Search للعملاء الذين يديرون بيانات الوثائق على MongoDB.
redis-vector-searchبحث متَّجهات Redis لأحمال استرجاع في الذاكرة بكمون منخفض جدًا.

Tier 2 (BM25 + دمج كثيف + إعادة ترتيب بمشفِّر متقاطع) متوفِّر اليوم في لوحة سير العمل لدينا كعقدة قابلة للتركيب. وسيستهدفه الموجِّه التلقائي تاليًا بمجرَّد أن تبرِّر بيانات التوجيه لكل مجموعة نصية ذلك.

واجهة برمجية — نقطة نهاية واحدة، بشفافية على مستوى التدقيق

الموجِّه غير مرئي للمتصل بك. شكل طلب واحد؛ وتتضمَّن الاستجابة قرار التوجيه ليتسنَّى لك تدقيق أي نظام خلفي أجاب (ولماذا).

# نقطة نهاية واحدة. الموجِّه هو من يقرِّر أي نظام خلفي يُستخدَم.
curl -X POST https://api.divinci.app/v1/rag/query \
  -H "Authorization: Bearer $DIVINCI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "question": "What clauses in the 2024 amendment override section 7.3?",
    "corpus":   "legal-contracts-q4"
  }'
# الاستجابة — المقاطع التي يحتاجها الوكيل لإسناد الإجابة.
{
  "items": [
    {
      "content":  "Section 7.3 is superseded by …",
      "metadata": { "doc": "amendment-2024.pdf", "section": "II.4.b" },
      "score":    0.91
    }
    /* … */
  ],
  "routing": {
    "backend":      "pageindex",           // أُرسل إلى فهرس الصفحات من Tier 3
    "match_source": "learned-history",     // arena · auto-fix · أو fallback
    "similarity":   0.92,                  // عتبة ≥ 0.88
    "ttl_remaining":"23d 14h"              // نافذة الحداثة قبل إعادة التقييم
  }
}

تُسجَّل بيانات routing الوصفية داخليًا في الوقت الحالي وتُكشف عبر سجل التدقيق. وسيُطرح تسليمها داخل الاستجابة مباشرةً عبر الربع الثالث من 2026.

كيف يختلف هذا عن الموجِّهات القائمة

توجيه RAG ليس فكرة جديدة — فالموجِّهات الأكاديمية مثل Adaptive-RAG و Probing-RAG تصنِّف الاستعلامات بالفعل حسب التعقيد. ما يميِّزنا هو أن Divinci يوجِّه عبر منظومات استرجاع متمايزة معماريًا، متعلَّمة من حركتك الخاصة، خلف نقطة نهاية واحدة مُدارة.

المنتجما يوجِّه بينهمحور التوجيهمُدار؟
Divinci RAG Routing10 أنظمة خلفية (PageIndex، RAPTOR، LightRAG، neo4j، 6 محركات متَّجهات)المعمارية · متعلَّمة من التاريخنعم — نقطة نهاية واحدة
LlamaIndex RouterRetrieverمستردِّات تأتي بها بنفسكمنتقي LLM/Pydanticلا — مكتبة تُجمِّعها بنفسك
Adaptive-RAG (Jeong et al.)لا استرجاع / خطوة واحدة / تكراريالعمق · مصنِّف تعقيد الاستعلامبحث أكاديمي
Cloudflare AI Search (ex-AutoRAG)خط أنابيب هجين واحدلا توجيهنعم
AWS Bedrock Knowledge Basesخط أنابيب هجين واحدلا توجيهنعم
Azure AI Search Agentic Retrievalهجين + وضع وكيل منفصلالمستخدم يختار الوضع يدويًانعم
VectifyAI PageIndexمعمارية واحدة (اجتياز هرمي)لا توجيهمفتوح المصدر مستقل

نقطة الضعف الصادقة في عرضنا: توجيه RAG لكل استعلام كمفهوم ليس جديدًا. لم نخترع التوجيه. التمييز الحقيقي هو تركيبة (أ) التوجيه عبر منظومات متمايزة معماريًا بدلًا من متغيِّرات العمق، و(ب) إدراج الاجتياز الهرمي بأسلوب PageIndex / RAPTOR / LightRAG كنظام خلفي من الدرجة الأولى وليس منتجًا منفصلًا، و(ج) نقطة نهاية واحدة مُدارة بدلًا من مكتبة تُجمِّعها وتشغِّلها بنفسك.

كيف تُبذَر تفضيلات التوجيه

نموذج التوجيه لديك ليس مُدرَّبًا مسبقًا — بل يتعلَّم من حركتك أنت. ثلاث إشارات تغذِّي مخزن سجل التوجيه.

  1. الاختيار من الحلبة (Arena). شغِّل استعلامًا عبر RAG Arena على أنظمة خلفية متعدِّدة، وقيِّم النسخ جنبًا إلى جنب، واختر الفائزة. يُسجَّل الزوج (السؤال، النظام الخلفي الفائز) في مخزن التوجيه.
  2. مخرجات الإصلاح التلقائي. حين يُجري الإصلاح التلقائي لدينا عمليات استرجاع مقارَنة على استعلامات تمثيلية خلال الاستيعاب أو التدقيقات المجدولة، يُكتَب أفضل نظام خلفي أداءً لكل استعلام في المخزن ذاته.
  3. تغذية راجعة من الإنتاج. الاستعلامات الناجحة (تلك التي حقَّقت درجة فوق عتبة الجودة لديك عبر بوابة التقييم الفورية لدينا — راجع مقالة اختبار الانحدار) تكتب زوجها (تجزئة السؤال، النظام الخلفي) في مخزن التوجيه في وقت الطلب، مع TTL مدَّته 30 يومًا حتى يظل نموذج التوجيه طازجًا مع تطوُّر مجموعتك النصية.
أين هذا فعليًا على مستوى الإنتاج وأين هو ضمن خارطة الطريق: الخطوتان 1 و2 مشحونتان اليوم. حلقة التغذية الراجعة التلقائية في الخطوة 3 مشحونة جزئيًا — الاستعلامات الناجحة تكتب رجوعيًا، لكن Tier 2 (BM25 + RRF + معيد ترتيب) مُركَّب حاليًا كعقدة سير عمل وليس موجَّهًا تلقائيًا. سندمج Tier 2 في الموجِّه التلقائي حالما تُظهر بيانات التوجيه شروط فوز واضحة له.

متى يكون هذا أكثر أهمية

المجموعة النصية المتجانسة بأشكال استعلامات موحَّدة تستفيد قليلًا — اختر نظامًا خلفيًا واحدًا يدويًا وانتهى الأمر. الميزة الحاسمة تظهر في المجاميع المختلطة وأشكال الاستعلامات المختلطة.

فريق قانوني يطرح في الوقت ذاته سؤال "ما تعريف القوة القاهرة في عقدنا القياسي؟" (Tier 1، أقل من 300 ms) وسؤال "عبر عقود مورِّدينا الـ 47، أيُّها يحتوي بنود إنهاء غير قياسية وما هي الأنماط؟" (Tier 3، اجتياز فهرس صفحات يستغرق عدة ثوان) لا يرغب في اختيار نظام خلفي واحد. هو يريد أن يأتي السؤال البسيط بسرعة وبتكلفة منخفضة، وأن يأتي السؤال العميق بشكل صحيح حتى لو كلَّف أكثر — دون تشغيل منظومتين.

هذه هي الحالة التي تُثبت فيها نقطة نهاية واحدة مُدارة توجِّه عبر أنظمة خلفية متمايزة معماريًا جدواها. إذا كانت حركتك موحَّدة فأنت لا تحتاج إليها. وإذا كانت حركتك مختلطة — كما هو حال معظم المجاميع النصية المؤسسية الحقيقية — فأنت تحتاج إليها.