اختبار الانحدار الآلي لنماذج اللغة الكبيرة المخصصة في 2026

ملاحظات من دورة الإصدار — الجزء السابع

في تمام الساعة 4:47 مساء الجمعة شحنتَ تعديلاً على التوجيه بحرف واحد. تحرّكت درجة التقييم الإجمالية من 0.873 إلى 0.871 — وهو ما يقع داخل أرضية الضوضاء بشكل مريح. وفي صباح الإثنين تشتعل قائمة انتظار الدعم لديك بسبب فئة من الاستفسارات توقفت عن متابعتها قبل ستة أشهر لأنها كانت مستقرة.

لم يحدث أي انحدار في النموذج. النموذج هو ذاته النموذج. التقييم هو الذي انحرف من تحتك. ستة أشهر من النمو البطيء في شريحة عملاء واحدة لم تصل قط إلى مجموعة البيانات الذهبية، وآخر معايرة لتوجيه الحكَم مقابل البشر كانت في أكتوبر، وفهرس الاسترجاع أعاد بناء نفسه بهدوء يوم الأربعاء الماضي على نموذج تضمين محدَّث.

هذا ما أشار إليه المنشور السادس — النموذج هو الإجابة الصحيحة في تنبيه واحد تقريبًا من بين كل سبعة. وهذا يعني أن مجموعة اختبار الانحدار لديك يجب أن تكتشف الانحراف في نفسها، وليس فقط في النموذج. هذا المنشور هو تلك المجموعة.

ما هو اختبار الانحدار لنموذج لغة كبير مخصص فعلًا؟

تؤكد اختبارات انحدار البرمجيات أن output == expected لمدخلات ثابتة. وهي تعمل لأن الدالة حتمية.

النموذج اللغوي ليس دالة بنفس المعنى. فالتوجيه نفسه عند درجة حرارة > 0 يُنتج توزيعًا من الإكمالات الصحيحة، و“الصحيح“ متعدد الأبعاد: هل أجاب على السؤال، هل الإجابة مؤسَّسة في السياق المسترجَع، هل بقي داخل ظرف الأمان، هل عاد ضمن ميزانية الكمون. لذا فإن اختبار انحدار نموذج لغة كبير مخصص يعني قياس توزيع السلوك مقابل توزيع أساس مُجمَّد — عبر الشرائح التي تهمك، بحكَّام مُعايرين مقابل البشر، على مدخلات تشبه حركة الإنتاج لديك.

ثلاثة أشياء يجب أن تكون موجودة قبل أن يصبح أي من هذا ذا معنى:

مجموعة بيانات ذهبية تشبه الإنتاج على مستوى الشريحة، لا على المستوى الإجمالي.
حكَم مُعاير — ليس “نستخدم GPT-5 كحكَم” بل “قِسنا Spearman ρ ≥ 0.7 مقابل ثلاثة مقيِّمين بشريين، آخر تحديث الأسبوع الماضي”.
بيان أساس مرجعي (manifest) — أوزان النموذج الدقيقة، قالب التوجيه، فهرس الاسترجاع، وإصدار الحكَم الذي سجَّل ما سجَّله. بدون هذا لا يمكنك معرفة ما إذا كانت الدرجة قد تحركت لأن النموذج تغيَّر أم لأن المسطرة تغيَّرت.

تدير Divinci الثلاثة جميعًا كأشياء من الدرجة الأولى، مرتبطة بالتجزئة، ومُسجَّلة على كل التزام (commit). بقية هذا المنشور هي كيفية تجميعها.

لماذا تفشل معظم مجموعات اختبار انحدار نماذج اللغة الكبيرة في اكتشاف الانحدارات الحقيقية

نمط الفشل المهيمن في 2026 لنماذج اللغة الكبيرة المخصصة هو ما أطلق عليه فريق Sigma Inference بقيادة Tianpan اسم كذبة الإصدار الدلالي (Semver Lie) في تقرير ما بعد الحادث الصادر في أبريل 2026^[1]: تظل مقياس إجمالي ثابتًا أو يتحسَّن، بينما تنحدر شريحة أو شريحتان من الإنتاج بصمت. كانت الشريحة أقل من 5% من حركة المرور عند تصميم الاختبار، فلم تدخل قط مجموعة البيانات الذهبية؛ وبعد ستة أشهر أصبحت 12% من حركة المرور، وتدهور النموذج عليها، ولم يكن الرقم الإجمالي ليلاحظ ذلك أبدًا.

لقد نظرنا في كل تقرير عام لحادثة إصدار نموذج لغة كبير من الثمانية عشر شهرًا الماضية ونمط التكرار واحد: سجَّلت المجموعة لونًا أخضر لأنها سجَّلت الشيء الخاطئ. وعلى وجه التحديد:

مجموعة البيانات الذهبية كُتبت يدويًا من قِبل الفريق عند الإطلاق ولم يُعد تقسيمها طبقيًا قط مقابل توزيعات حركة مرور متغيرة.
توجيه نموذج اللغة الكبير-بوصفه-حكَمًا تم ضبطه مرة واحدة ولم يُعاد تعييره مقابل ملصقات بشرية. تدهور اتفاق الحكَم بصمت^[2].
خُزِّنت درجات الأساس كأرقام خام، لا كصفوف (model_sha, prompt_sha, judge_sha, dataset_sha, score) — لذا حين انحدر شيء ما، لم يستطع أحد تحديد أيٌّ من الأربعة قد تحرك.

مجموعة اختبار انحدار لا تحل هذه الثلاثة هي مجرد خطوة CI تتحول إلى الأخضر عند النشر وتمنحك ثقة زائفة. الحل ليس “مزيدًا من الحالات”. الحل هو قياس حساس للشرائح، مُثبَّت بالإصدار، ومُعاير بالحكَم، عند كل إصدار.

ابنِ مجموعة بيانات ذهبية تنجو من التحليل الحساس للشرائح

التركيب رباعي الدلاء الذي نشحنه افتراضيًا — عينات إنتاج 60%، عدائي 15%، حالات حافة منتقاة من قِبل خبراء 15%، إعادات تشغيل للإخفاقات 10% — هو نقطة بداية معقولة. ما يجعله يكتشف الانحدارات فعلًا هو بيانات تعريف الشرائح المرفقة بكل حالة.

كل إدخال في مجموعة البيانات يحمل: المدخل، السلوك المتوقع (معيار تقييم، لا سلسلة محددة)، سياق الاسترجاع (إن وُجد)، ووسم slice — المجال، شريحة المستخدم، نية الاستفسار، اللغة، فئة الطول، أيًا كانت التفكيكات التي تهم منتجك. تسجِّل المجموعة لكل شريحة، وأي شريحة تنزل دون عتبتها تحجب الإصدار، حتى لو ارتفعت الدرجة الإجمالية.

المخطط هيكلي. تُعدَّ محاور التقسيم الطبقي وعتبات كل شريحة لكل منتج في بيان إصدار Divinci. داخلي — مُعرَّف في عمليات النشر الخاصة بنا.

قاعدتان تشغيليتان تعلَّمنا فرضهما:

أعد أخذ العينات ربع سنويًا. تتحرك توزيعات حركة الإنتاج بسرعة أكبر مما يقيسه معظم الفرق. نُعيد التقسيم الطبقي لدلو عينة الإنتاج مقابل آخر 90 يومًا من حركة المرور كل ربع سنة؛ فإن نَمَت أي شريحة لتتجاوز 5% من حركة المرور وكانت أقل من 2% من مجموعة البيانات الذهبية، تُملأ بأثر رجعي قبل شحن الإصدار التالي.

كل تقرير حادث يضيف حالة. الانحدار الذي يصل إلى الإنتاج ولم يُكتشَف هو حالة كانت مفقودة من مجموعة البيانات. نضيفها إلى دلو الإعادات خلال 48 ساعة من تقرير الحادث ونعلِّمها بالشريحة التي أظهرتها.

كيف تكتشف الانحراف قبل المستخدمين؟

هناك أربعة أنواع متمايزة من الانحراف، ومجموعة اختبار انحدار تراقب الأخير فقط هي مجموعة تفوت معظم الانحدارات.

نوع الانحراف	ما الذي يتحرك	إشارة الكشف	الإجراء
انحراف الجودة	درجة الحكَم لشريحة ثابتة	انخفاض Spearman ρ لكل شريحة مقابل الأساس	حجب الإصدار؛ التشخيص وفق شجرة المنشور السادس
انحراف التغطية	توزيع حركة الإنتاج مقابل توزيع مجموعة البيانات الذهبية	تباعد KL بين نسب الشرائح	إعادة أخذ عينات مجموعة البيانات الذهبية
انحراف الحكَم	اتفاق نموذج الحكَم مع البشر	Spearman ρ مقابل مجموعة تدقيق بشرية مُجمَّدة	إعادة معايرة توجيه الحكَم أو استبداله
انحراف الإنتاج	درجات الإنتاج الحية مقابل الدرجات غير المتصلة لنفس النموذج	فجوة درجة إعادة تشغيل آثار الإنتاج	التحقيق في الاسترجاع / المعالجة المسبقة / وقت التشغيل

انحراف الجودة هو الذي تقيسه معظم المجموعات؛ والثلاثة الأخرى هي حيث تختبئ عادةً انحدارات بعد ظهر يوم الجمعة. تتعقب Divinci الأربعة جميعًا مقابل بيان الأساس، مع تفصيل الدرجات لكل شريحة الظاهر على كل PR ومهمة معايرة حكَم أسبوعية تُشير إلى الانحراف قبل أن يتراكم.

إعادة بناء أسلوبية لنمط تقرير حادث Tianpan Sigma^[1] باستخدام تسميات شرائح Divinci الداخلية. القيم المحددة توضيحية.

التقييم متعدد الأبعاد — سجِّل أربعة أشياء في وقت واحد، لكل شريحة

درجة مركَّبة واحدة هي إشارة أسوأ من أربع درجات قياسية. نضع البوابات على أربعة أبعاد:

إتمام المهمة — هل أجابت الاستجابة فعلاً على السؤال، مُسجَّلة بحكَم مُعاير وفق معيار تقييم. حساسة للشرائح.
الوفاء (Faithfulness) — لأي استجابة تشير إلى سياق مسترجَع، هل كل ادعاء مؤسَّس في ذلك السياق. الهلوسة تظهر هنا أولًا.
الأمان — صحة الرفض، مقاومة كسر الحماية، تعرض المعلومات الشخصية / السياسة. تُحدَّد البوابات دائمًا تقريبًا عند معدل نجاح ≥ 0.99؛ فالأمان جدار صلب، وليس مقايضة لينة.
ميزانية الكمون — p95 ضمن SLA الشريحة. أي تغيير في التوجيه يضاعف الرموز لكل استجابة هو انحدار حتى لو ارتفعت الجودة.

لكل بُعد أساس خاص به لكل شريحة وعتبة خاصة لكل شريحة. لا ندمجها قط في مقياس عددي مرجَّح واحد عند البوابة؛ نظهرها كأربع درجات لكل شريحة ونحجب على أيها تجاوز عتبته أولًا. نموذج اكتسب 4 نقاط من إتمام المهمة على حساب نقطة من الوفاء على الشريحة الطبية لا يزال انحدارًا.

ما البوابات التي يجب أن تحجب نشر نموذج لغة كبير مخصص؟

نُشغِّل بنية ثلاثية الطبقات، تحجب كل طبقة مرحلة مختلفة من المسار (انظر المنشور الأول لتصنيف المراحل).

الطبقة 1 — اختبار الدخان (كل التزام، ~90 ثانية). من عشرين إلى ثلاثين حالة حرجة مأخوذة من الشرائح الأعلى تأثيرًا. تكتشف الانحدارات الكارثية قبل أن تستهلك المجموعة الكاملة الحوسبة. إذا فشل اختبار الدخان، لن يعمل الباقي.

الطبقة 2 — المجموعة الكاملة (كل PR، ~12 دقيقة). مجموعة البيانات الذهبية الكاملة، مُسجَّلة لكل شريحة على الأبعاد الأربعة جميعًا. Spearman ρ حساس للشرائح مقابل بيان الأساس. اختراق العتبة يحجب الدمج. يسرد تعليق PR بالضبط أي شريحة على أي بُعد تحركت وبكم، مع خمس حالات فاشلة كمثال.

الطبقة 3 — مقارنة الأساس (مرشحات الإصدار، ~25 دقيقة). يُعاد تشغيل النموذج المرشَّح مقابل آخر 14 يومًا من آثار الإنتاج — إعادة تشغيل آثار الإنتاج في حلقة مغلقة التي شحناها في المنشور الأول. الحكَم المُعاير ذاته الذي يسجِّل مجموعة البيانات الذهبية يسجِّل أيضًا مخرجات الإعادة. أي شريحة تتباعد درجاتها المُعاد تشغيلها عن الدرجات غير المتصلة بأكثر من عتبتها تحجب الإصدار. هذه الطبقة هي ما يكتشف الانحراف الذي لا تعرفه مجموعة البيانات الذهبية بعد.

أرقام زمن الجدار داخلية — مُقاسة على منفذي CI للإنتاج لدى Divinci لعميل تمثيلي بنحو 500 حالة في مجموعة البيانات الذهبية ونحو 14 يومًا من آثار الإنتاج.

عاير حكَمك قبل أن تثق بأي درجة واحدة يُنتجها

نموذج اللغة الكبير-بوصفه-حكَمًا هو ما يجعل أي من هذا قابلًا للتوسع بعد بضع مئات من الحالات. وهو أيضًا حيث تتوقف مجموعة اختبار الانحدار عن العمل بهدوء، لأن الحكَم ليس ملزَمًا بأن يظل مُعايرًا مع تحديثه أو مع تحرك توزيع بياناتك.

نُعاير كل توجيه حكَم مقابل مجموعة تدقيق بشرية مُجمَّدة لا تقل عن 100 حالة مقسَّمة طبقيًا عبر الشرائح ذاتها لمجموعة البيانات الذهبية، ونُعيد تشغيل المعايرة أسبوعيًا. الشريط الذي نشحن عنده هو Spearman ρ ≥ 0.7 مقابل وسيط المقيِّمين البشريين، مع Cohen’s κ ≥ 0.6 على أحكام الأمان الثنائية. كلاهما فوق العتبة التي ثبت عندها أن الحكَّام من نمط MT-Bench يتتبعون المقيِّمين البشريين عند مستوى الاتفاق بين البشر^[2].

عندما تنخفض المعايرة الأسبوعية دون العتبة، يُتقاعد الحكَم تلقائيًا ويُستدعى مهندس التقييم المناوب. يُبقي مسار الإصدار المرشحات معلَّقة بدلًا من غلق البوابة عليها بحكَم لم يعد يقيس ما اعتاد قياسه.

# Run the weekly judge calibration job
curl -X POST https://api.divinci.ai/v1/regression/judges/calibrate \
  -H "Authorization: Bearer $DIVINCI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "judge_id":     "rubric-v7",
    "audit_set":    "human-labels-2026-04",
    "min_spearman": 0.70,
    "min_kappa":    0.60,
    "on_fail":      "retire_judge_and_page"
  }'

ميزة Divinci التفاضلية — إعادة تشغيل آثار الإنتاج في حلقة مغلقة

بوابة الطبقة 3 هي الجزء الذي لا تمتلكه معظم مجموعات اختبار الانحدار. التدفق هو التدفق ذاته الذي شحناه في المنشور الأول، مع تخصيص واحد لاختبار الانحدار: كل مرشح إصدار تُقارَن درجته على مجموعة البيانات الذهبية غير المتصلة، شريحة بشريحة، بدرجته على نافذة 14 يومًا من آثار الإنتاج المُعاد تشغيلها. مجموعة البيانات الذهبية تقيس ما توقعنا أن يفعله النموذج. الإعادة تقيس ما كان النموذج سيفعله فعلًا الأسبوع الماضي.

عندما تتباعد هاتان الدرجتان بأكثر من ميزانية الفجوة لكل شريحة، يُحجب الإصدار. التفاوت هو الإشارة: إما أن مجموعة البيانات الذهبية لم تعد ممثِّلة (انحراف التغطية)، أو أن المرشح يتصرف بشكل مختلف على الآثار المشكَّلة بواسطة المعالجة المسبقة والاسترجاع في الإنتاج (انحراف الإنتاج). في كلتا الحالتين، تكتشف ذلك قبل المستخدمين.

الحكَم الذي يسجِّل التشغيل غير المتصل هو الحكَم ذاته الذي يسجِّل تشغيل الإعادة. يسجِّل سجل التدقيق مجموعتي الدرجات، وإصداري الحكَم، ومعرّفات الآثار التي أُعيد تشغيلها، والفجوة التي أطلقت الحجب. الفجوة نفسها هي أفيد إشارة تشخيصية لدينا، وهي ما يُسلَّم لمن يأخذ شجرة تشخيص المنشور السادس لاحقًا.

ثبِّت مجموعة البيانات الذهبية بإيصال vIndex

كل درجة في المجموعة لا معنى لها إذا لم تستطع إعادة إنتاجها لاحقًا. نُجزِّئ مجموعة البيانات الذهبية في كل إصدار ونُسلسل تلك التجزئة في إيصال vIndex إلى جانب SHA النموذج، SHA التوجيه، SHA الحكَم، وسجل المعايرة. الإيصال قابل للتثبيت خارجيًا — يمكن للمدقّقين إعادة تشغيل تشغيل الانحدار الدقيق لدينا بعد ستة أشهر والتحقق من الدرجات التي ادعيناها.

{
  "release_id": "rel_3f1a-2026-05-26",
  "model": { "sha": "0c1f9…", "weights_uri": "r2://models/custom-v7.2", "open_weights": true },
  "prompt": { "sha": "c4a8e…", "template_id": "support-v3.4" },
  "retrieval": { "index_sha": "b21f0…", "embedder": "e5-mistral-7b-instruct" },
  "judge": { "sha": "d8e21…", "rubric_id": "rubric-v7", "spearman_vs_humans": 0.74 },
  "dataset": { "sha": "a90b1…", "n": 512, "slices": 17, "stratified_at": "2026-04-30" },
  "scores": { "aggregate": 0.872, "by_slice": { "/* … */": "/* per-slice scalars */" } },
  "replay": { "trace_window_days": 14, "n_traces": 8430, "max_gap": 0.018 },
  "vindex_anchor": "sha256:f0bfd2…",
  "verifiable_at": "https://vIndex.divinci.ai/rel_3f1a-2026-05-26"
}

تحفظ على الأوزان المفتوحة. الإيصال أعلاه يحمل إثبات الأوزان فقط عندما يكون النموذج مفتوح الأوزان — فإن vIndex يُثبِّت بايتات الأوزان الفعلية. للنماذج المستندة إلى واجهات API مغلقة (نماذج OpenAI / Anthropic / Google المُدارة)، لا يزال الإيصال يحمل سلسلة القرار — كل درجة بوابة، كل نتيجة حكَم، سجل المعايرة — لكن حقل الأوزان فارغ، ولا يمكنك التحقق المستقل من قطعة النموذج. نقول ذلك في الإيصال وفي وثائق الامتثال حتى لا يحصل المدقّقون على انطباع زائف. الإصدارات التي تستفيد أكثر من سلسلة vIndex كاملة هي تلك التي تتحكم فيها بالأوزان.

جدول زمني للتنفيذ من أربع مراحل شحناه فعليًا

الفرق التي تحاول شحن البنية الكاملة في الأسبوع الأول تتعثر على الأدوات. الترتيب أدناه هو الترتيب الذي يعمل.

المرحلة 1 — الأساس (الأسبوع 1). اسحب عينة مقسَّمة طبقيًا من آخر 30 يومًا من آثار الإنتاج. اطلب من مهندسَين يدويًا تصنيف إتمام المهمة على 100 حالة لكل منهما. احسب اتفاق المقيِّمين (الهدف Cohen’s κ ≥ 0.6). الرقم الذي تحصل عليه هو خط أساسك البشري؛ ويُعاير كل شيء آخر مقابل هذا.

المرحلة 2 — الإطار (الأسبوعان 2–3). انشر إطار التقييم على مجموعة بيانات الـ 100 حالة. أضف حكَمًا مُعايرًا مقابل ملصقاتك البشرية. تحقق من أن الإطار يُعيد إنتاج الدرجات البشرية ضمن ρ ≥ 0.7. تكتشف معظم الفرق أن أول توجيه حكَم لديها يفشل في هذا وتعيد كتابته مرتين — وهذا أمر طبيعي.

المرحلة 3 — البوابات (الأسبوعان 3–4). اربط الإطار بـ CI كتحذير، لا كحجب. راقبه لمدة أسبوعين. العتبات التي تكتشفها بمراقبة معدلات الإيجابيات الكاذبة هي العتبات الوحيدة التي تستمر. ارفعها إلى الحجب فقط عندما يكون معدل الإيجابيات الكاذبة دون 5%.

المرحلة 4 — حلقة الإعادة (مستمر). بمجرد أن تحجب البوابات بشكل موثوق، فعِّل طبقة إعادة تشغيل آثار الإنتاج. هنا تظهر فجوة تغطية الشرائح، وهنا يبدأ كل تقرير حادث في إضافة حالات مرة أخرى إلى مجموعة البيانات الذهبية.

ما لا يحله هذا

ثلاثة قيود صريحة، بالطريقة ذاتها التي صَوَّرناها بها في كل منشور من هذه السلسلة.

انحراف المجموعة عمل لا ينتهي. اختبار الانحدار بنية تحتية، لا مشروع. يجب إعادة التقسيم الطبقي لمجموعة البيانات الذهبية كل ربع سنة، وإعادة معايرة الحكَم كل أسبوع، وإعادة ضبط ميزانيات العتبات بعد كل تقرير حادث. لا توجد نسخة من هذا تشحن فيها مجموعة وتمشي بعيدًا.
الحكَم المُعاير بكمال هو نموذج مع ذلك. Spearman ρ = 0.74 مقابل المقيِّمين البشريين يعني أن نحو ربع مكالمات الحكَم تختلف مع وسيط البشر. ذلك الاختلاف المتبقي هو أرضية الضوضاء على كل درجة. نُظهِره صراحة في كل تقرير إصدار؛ والفرق التي تنسى أنه موجود ستتفاجأ به في النهاية.
النماذج المستندة إلى واجهات API مغلقة تضع سقفًا لما يمكنك التحقق منه. مع نموذج مغلق-API، تقيس مجموعة اختبار الانحدار السلوك لكنها لا تستطيع التحقق من أصل الأوزان. إذا كنت تحتاج إلى إعادة إنتاج كاملة — صناعات منظَّمة، نشر مُدقَّق — فالمقايضة في اختيار النموذج، لا في المجموعة.

المنشور الثامن، الأخير في هذه السلسلة، يُكمل الحلقة داخل CI. حيث كان هذا المنشور والمنشور الخامس عن ما يعمل عند البوابات، فإن المنشور التالي عن طبقة CI التي تُنتج المرشحات التي تسجلها البوابات في المقام الأول — تقييم ما قبل الدمج، اختبارات العقود لقوالب التوجيه، وكيفية تحجيم أسطول CI لمجموعة تقييم 12 دقيقة دون إفلاس الميزانية. إنها طبقة الهندسة تحت كل ما كتبناه حتى الآن.

الأسئلة الشائعة

ما الفرق بين تقييم نماذج اللغة الكبيرة واختبار انحدار نماذج اللغة الكبيرة؟

التقييم يقيس ما إذا كان النموذج يستوفي شريط جودة في نقطة زمنية ما، مقابل معيار تقييم مطلق. اختبار الانحدار يقيس ما إذا كان المرشح يتصرف كما يفعل أساس مُجمَّد، لكل شريحة، عبر أبعاد متعددة. الأساس هو ما يجعله اختبار انحدار — تشحن Divinci كليهما، ووضع الانحدار يثبِّت (model_sha, prompt_sha, judge_sha, dataset_sha) بحيث تحدد درجة متحركة أي مدخل قد تحرَّك.

كم حالة يجب أن تكون في مجموعة بيانات ذهبية؟

أقل مما تظن، مقسَّمة طبقيًا أفضل مما تظن. لقد شحنا تغطية انحدار مفيدة بـ 200 حالة على خمس شرائح محددة جيدًا ورأينا مجموعات من 5,000 حالة فاتها كل ما يهم لأنها كانت غير مقسَّمة طبقيًا. ابدأ بـ 200، مقسَّمة طبقيًا، ثم نمِّ دلو الإعادة حالة بحالة من تقارير الحوادث.

هل ينبغي أن أستخدم مراجعين بشريين أم نموذج اللغة الكبير-بوصفه-حكَمًا؟

كليهما، مع معايرة البشر للحكَم. لا يستطيع البشر مواكبة الحجم الذي تحتاج بوابة CI لدورة الإصدار إلى تسجيله. الحكَم يملأ الحجم، والبشر يُعايرون الحكَم — مُقاسًا أسبوعيًا بـ Spearman ρ ≥ 0.7. أحدهما وحده هو نمط فشل.

كيف أختبر المخرجات غير الحتمية؟

سجِّل التوزيع، لا السلسلة. سجِّل بمعيار تقييم يمكن للحكَم تطبيقه عبر صياغات مختلفة، وشغِّل كل مدخل ثلاث إلى خمس مرات عند درجة حرارة > 0 بحيث تكون درجة الشريحة على توزيع من الإكمالات بدلًا من عينة واحدة. شدِّد درجة الحرارة فقط للحالات التي تحتاج فعلاً إلى مخرج حتمي (مكالمات أدوات مخرجات مهيكلة، تصنيف).

ما المقاييس التي يجب أن أُعطيها الأولوية لأول بوابة جودة CI؟

إتمام المهمة وبوابة أمان واحدة. كلاهما لكل شريحة. إضافة مزيد من الأبعاد قبل معايرة الأولى يُنتج ضوضاء؛ الفرق التي تشحن أكثر تنتهي عادةً إلى الحجب على الضوضاء. أضف الوفاء بعد ذلك عندما تشغِّل الاسترجاع؛ أضف الكمون بمجرد استقرار الأولى.

المراجع

Pan, Tianpan. "The Semver Lie: how a minor LLM update broke production." 29 أبريل 2026. نمط الفشل المُسمَّى لعام 2026 لتحليل الانحدار الحساس للشرائح؛ تظل الدرجات الإجمالية ثابتة بينما تنحدر شريحة منخفضة الحجم بصمت.
Zheng et al. "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena." arXiv:2306.05685. دليل تجريبي على أن حكَّام نماذج اللغة الكبيرة القوية يتفقون مع المقيِّمين البشريين عند مستويات الاتفاق بين البشر تقريبًا (≈ 80%) في المهام مفتوحة النهاية، مع أنماط فشل مُبلَّغ عنها صُمِّمت عمليات تدقيق المعايرة مقابل البشر لاكتشافها.
Kirkpatrick et al. "Overcoming catastrophic forgetting in neural networks." PNAS / arXiv:1612.00796. النتيجة التأسيسية حول النسيان الكارثي في الشبكات العصبية المُحسَّنة دقيقًا — لماذا يجب اختبار انحدار نموذج لغة كبير مخصص ومُحسَّن دقيقًا لفقدان القدرة العامة، لا فقط للكسب على المهمة المستهدفة.
Amazon Web Services. "SageMaker Deployment Guardrails — blue/green deployments and canary monitoring." النقيض المغلق-API: بوابات على مقاييس البنية التحتية (الكمون، الأخطاء، CPU) بدلًا من جودة دلالية لكل شريحة.
Spearman, C. "The proof and measurement of association between two things." American Journal of Psychology, 15(1):72–101, 1904. معامل ارتباط الرتب الذي يرسي البوابة الحساسة للشرائح — مقاوم لانحراف مقياس التسجيل في الحكَم، وهي الخاصية التي احتجناها.
DORA / Google Cloud. "Accelerate State of DevOps — change-failure-rate and time-to-restore-service metrics." الأساس عبر الصناعات لـ "كم مرة تتسبب عمليات النشر في حوادث" و"بأي سرعة تتعافى". مجموعات اختبار الانحدار التي تحجب عند البوابة تُخفِّض المقياس الأول؛ والتراجع الفوري ([المنشور الخامس](/ar/blog/automated-llm-ci-cd-pipelines-with-instant-rollback/)) يُحرك الثاني.

هل أنت مستعد لبناء حل الذكاء الاصطناعي المخصص؟

اكتشف كيف يمكن لـ Divinci AI مساعدتك في تطبيق أنظمة RAG وأتمتة ضمان الجودة وتبسيط عملية تطوير الذكاء الاصطناعي.

ابدأ اليوم