Notizen aus dem Release-Zyklus — Teil III
Vor einem Jahr, bevor wir mit dem Bau unserer eigenen Release-Pipeline begannen, haben wir uns hingesetzt und jede QA- und Release-Fähigkeit aufgelistet, von der wir dachten, dass eine ernsthafte LLM-Plattform sie ausliefern sollte. Wir haben dann zwölf andere Plattformen gegen die Liste evaluiert — LangSmith, MLflow, Weights & Biases, Braintrust, Humanloop, Patronus, Arize, Phoenix, Confident, Deepchecks, SageMaker Deployment Guardrails, KServe, BentoCloud, Vertex AI Endpoints, Seldon Core. Niemand hatte alle zwölf. Die Kombinationen, die tatsächlich ausgeliefert wurden, gruppierten sich in drei Lager, die sich gegenseitig nicht ganz berührten.
Dieser Beitrag ist die daraus resultierende Fähigkeitenliste, portabel gemacht. Sie ist danach organisiert, in welcher unserer vier Pipeline-Stufen jede Fähigkeit lebt — Register → Gate → Roll → Observe — sodass sie sich sauber mit der Pipeline-Architektur und den Failure-Modes, über die wir geschrieben haben, kombinieren lässt. Wenn Sie Tools evaluieren, arbeiten Sie die Liste von oben nach unten gegen jeden Kandidaten ab; diejenigen mit den tiefsten Lücken werden Ihnen verraten, zu welchem Lager sie gehören.
Die drei Lager (damit Sie wissen, womit Sie es zu tun haben)
Vor der Checkliste selbst die Form des Marktes im Jahr 2026:
- Eval-CI-Lager — Braintrust, Humanloop, Patronus. Führen automatisierte Evaluatoren beim PR-Merge aus. Blockieren schlechte Merges. Berühren niemals Live-Traffic. Stark bei den Fähigkeiten 4–6; abwesend bei 7–12.
- Serving-Canary-Lager — SageMaker Deployment Guardrails, KServe, Vertex AI Endpoints, BentoCloud, Seldon Core. Teilen Traffic auf, überwachen Infrastruktur-Metriken, Auto-Rollback bei CloudWatch-artigen Alarmen. Stark bei 1, 7, 9; abwesend auf der Qualitätsseite von 8 und 10–12.
- Observability-Lager — Arize Phoenix, Confident AI, Deepchecks. Beobachten Produktion, alarmieren Menschen, eskalieren. Stark bei 10 (Monitoring), aber sie erzwingen nichts — Alarmierung ist kein Auto-Rollback.
Die Lücke zwischen diesen Lagern — zwischen „CI bestanden“ und „Live-Canary anhand von Qualität bewertet, nicht nur Latenz“ — ist der Teil, den jeder manuell überbrücken muss. Diese Lücke zu schließen ist die tragende Aussage dieses Beitrags.
Die fehlende Naht: Qualitäts-Gate pro Slice → atomares Rollback, getrieben durch Output-Qualität, nicht durch Infra-Metriken.
Stufe ① — Register
Fähigkeit 1. Unveränderliches Release-Manifest mit inhaltsadressierbarer SHA
Was es ist: ein Release ist keine Modellgewichts-Datei. Ein Release ist ein unveränderliches Bündel aller Bestandteile — Modell-Artefakt, Prompt-Template, Routing-Regeln, Datensatz-Version, Preprocessing-Version — adressiert durch eine einzige SHA-256. Zwei Personen, die „denselben Release“ deployen, müssen dieselbe SHA erzeugen, sonst verweigert die Pipeline.
Warum es wichtig ist: ohne dies ist „welche Änderung hat die Produktion kaputt gemacht?“ nicht beantwortbar, wenn der Zustand über drei Systeme verteilt liegt. Atlassians Ausfall im April 2022[1] dauerte gerade deshalb zwölf Stunden pro Site, weil der Zustand in unabhängig versionierten Systemen lag, die wieder in Übereinstimmung gebracht werden mussten.
Wer es ausliefert: Serving-Canary-Lager teilweise (Modell + Routing); Modell-Registries (MLflow, W&B Models[2]) teilweise (nur Modell-Artefakt). Fast niemand bündelt das Prompt-Template in die SHA, und das ist genau das Feld, das sich am häufigsten ändert.
Fähigkeit 2. Atomare Versionskontrolle über alle Release-Komponenten
Was es ist: der Wechsel von Release A zu Release B flippt alles in einer einzigen Anweisung um — Gewichte und Prompt und Routing und Datensatz und Preprocessing — nicht als fünf separate Dashboard-Edits.
Warum es wichtig ist: Teilweise Swaps erzeugen Fenster mit undefiniertem Verhalten. Wenn der Prompt aktualisiert wird, die Routing-Regel aber nicht, ist jeder Request, der den neuen Prompt mit der alten Routing-Klasse trifft, in einem Zustand, den niemand geplant hat.
Wer es ausliefert: niemand vollständig. Das Serving-Canary-Lager tauscht das Modell-Image atomar; Prompt und Routing leben typischerweise woanders. Manifest-getriebener Swap ist der Ursprung des Atomic-Rollback-Anspruchs von Divinci[5].
Fähigkeit 3. Parität der Training- und Serving-Umgebung
Was es ist: die Preprocessing-Pipeline, die während der Gate-Evaluation verwendet wird, ist dieselbe Preprocessing-Pipeline, die der Produktions-Server verwendet. Wenn sie divergieren, ist jede Offline-Zahl eine Lüge.
Warum es wichtig ist: Training-Serving-Skew ist einer der zehn Release-Failures, über die wir geschrieben haben. Das Symptom ist „funktioniert in der Eval einwandfrei, verhält sich in der Produktion wie ein anderes Modell.“ Die Heilung ist, das Preprocessing im Manifest zu registrieren und gegen die Produktions-Preprocessing-Version zu gaten.
Wer es ausliefert: Containerisierungs-Frameworks (BentoML, KServe) bekommen Teilpunkte, indem sie das Preprocessing zum Serving kolokalisieren. Keiner davon bindet das Preprocessing an die Eingabe des Eval-Gates.
Stufe ② — Gate
Fähigkeit 4. Qualitäts-Gate pro Slice / pro Domäne
Was es ist: die Gate-Entscheidung konsumiert Pro-Slice-Scores — Vertragsentwurf, gesetzliche Auslegung, IP-Lizenzierung — nicht einen einzigen Aggregatwert. Jeder einzelne Slice, der unter seinen Schwellenwert fällt, markiert das Release als gate_fail, unabhängig davon, wie der Durchschnitt aussieht.
Warum es wichtig ist: Aggregatwerte verwaschen lokalisierte Regressionen. Tianpans Semver-Lie-Schrift[3] benennt dies als den dominanten LLM-Release-Failure-Mode des Jahres 2026: ein Modell, das im Durchschnitt besser wird, während es bei einer User-Journey-Klasse still kollabiert.
Wer es ausliefert: niemand sonst im Jahr 2026. Eval-CI-Tools — Braintrust, Humanloop, Patronus — bewerten gegen eine einzige globale Rubrik oder eine flache Task-Liste. Sie legen weder einen Pro-Slice-Schwellenwert noch ein Slice-blindes Override offen. Hier scheitern die Lager zum ersten Mal daran, sich zu treffen.
Fähigkeit 5. Menschlich verankerter kalibrierter Judge (Spearman ρ gegenüber menschlichen Bewertungen)
Was es ist: der Judge ist kein generischer LLM-as-Judge. Er ist ein LLM-Judge, dessen Spearman ρ gegenüber einem Domänen-Experten-Panel gemessen und pro Slice konfiguriert wird. Der Judge wird ausgewählt, weil seine Ränge mit den Rängen des Menschen übereinstimmen, nicht weil er einen starken Ruf hat.
Warum es wichtig ist: MT-Bench[6] zeigt, dass GPT-4-als-Judge insgesamt zu >80% mit Menschen übereinstimmt, mit Varianz pro Kategorie von Coding (86%) bis hinunter zu Schreiben (36–44%). „Gesamtübereinstimmung“ verbirgt die Slices, in denen der Judge unzuverlässig ist. Den Judge pro Slice zu kalibrieren ist der einzige ehrliche Weg, automatisiertes Scoring vertrauenswürdig zu machen.
Wer es ausliefert: Braintrust, Humanloop, Patronus betreiben Judge-Evaluatoren. Keiner von ihnen verlangt, exponiert oder persistiert eine menschlich verankerte Spearman-Kalibrierung pro Slice. Die Divinci-Kalibrierungs-Pipeline ist in Calibrating the AI Judge dokumentiert.
Fähigkeit 6. Override-Pfad mit erforderlicher schriftlicher Begründung
Was es ist: das erzwungene Überschreiben eines Gate-Failures ist erlaubt (Kaltstarts, akzeptierte Regressionen etc.), erfordert aber zwei Felder — forceGateOverride: true UND overrideReason: "...". Die Begründung geht zusammen mit der User-ID in den Audit-Trail. Keine anonymen Overrides.
Warum es wichtig ist: Governance-Gates sind kein separates Compliance-Feature; sie sind eine Eigenschaft der Gate-Stufe selbst. Der Audit-Trail muss nicht nur antworten „wurde dieses Override verwendet?“, sondern „was war die Begründung zu diesem Zeitpunkt?” — denn das zukünftige Ich muss es lesen können.
Wer es ausliefert: Eval-CI-Tools haben Flags; keiner von ihnen verlangt die Begründung als strukturellen Teil des Overrides.
Stufe ③ — Roll
Fähigkeit 7. Multi-Checkpoint-Canary mit Verweildauer
Was es ist: Traffic bewegt sich von 0% in die Produktion über mindestens drei Checkpoints — typischerweise 5% → 25% → 100% — und hält bei jedem entweder eine konfigurierte Verweildauer oder eine konfigurierte Request-Zahl, je nachdem, was später eintritt. Kein sofortiges 0%→100%.
Warum es wichtig ist: Long-Tail-Bugs werden bei Skalierung sichtbar. Ein Bug, der 0,3% der Konversationen betrifft, ist auf einer 100-Prompt-Eval unsichtbar und bei 5% Produktions-Traffic offensichtlich. Die Verweildauer ist das, was dem Canary Zeit gibt, den Long-Tail zu sehen.
Wer es ausliefert: das Serving-Canary-Lager liefert dies aus. AWS SageMaker Deployment Guardrails[4] dokumentiert einen Default TerminationWaitInSeconds von 600 (zehn Minuten). KServe, BentoCloud, Seldon und Vertex exponieren alle ähnliche Multi-Step-Canary-Konfigurationen. Das ist die gesättigte Fähigkeit.
Fähigkeit 8. Output-Qualitäts-Monitor an jedem Canary-Checkpoint
Was es ist: an jedem Checkpoint prüft die Pipeline drei Monitore, bevor sie weitergeht — p95-Latenz, 5xx-Rate und einen Output-Qualitäts-Score, berechnet vom selben kalibrierten Judge aus Fähigkeit 5. Latenz und 5xx allein reichen nicht aus.
Warum es wichtig ist: hier scheitern die Lager erneut daran, sich zu treffen. SageMaker, KServe, Vertex, BentoCloud, Seldon beobachten alle Latenz und Fehlerrate. Keiner von ihnen liefert einen Output-Qualitäts-Monitor pro Checkpoint aus — weil sie keinen kalibrierten Judge haben, gegen den sie bewerten könnten. Die Eval-CI-Tools haben den Judge, sitzen aber nicht auf dem Traffic.
Wer es ausliefert: niemand schließt die Brücke. Die verweilende Canary-Infrastruktur existiert im Serving-Lager; der kalibrierte Judge existiert im Eval-CI-Lager; wir haben niemanden gesehen, der sie verbindet.
Fähigkeit 9. Automatischer Halt bei Qualitätsverletzung
Was es ist: ein Canary-Checkpoint, der bei der Output-Qualität fehlschlägt, hält automatisch an. Die Promotion geht nicht weiter. Es ist kein menschliches Pagen erforderlich, um den Rollout zu stoppen.
Warum es wichtig ist: Menschen sind nicht im Loop in dem Zeitrahmen, in dem sich Rollouts bewegen. Wenn ein Kunden-Ticket eintrifft, ist der 25%-Checkpoint vorbei und die 100%-Promotion ist erfolgt.
Wer es ausliefert: das Serving-Canary-Lager hält bei Infrastruktur-Metriken an. Der Qualitäts-Metrik-Halt ist der Teil, der das Vorhandensein von Fähigkeit 8 voraussetzt.
Stufe ④ — Observe
Fähigkeit 10. Kontinuierliches Replay von Produktions-Traces durch den Kandidaten
Was es ist: nachdem der Canary auf 100% promotet wurde, läuft der Observer weiter. Er sampelt aktuelle Produktions-Traces, spielt sie durch den Kandidaten (jetzt aktiven) Release ab, bewertet sie mit dem kalibrierten Judge und gibt einen Qualitäts-Score pro Minute aus. Kontinuierlich, nicht periodisch.
Warum es wichtig ist: stille Qualitätseinbrüche — das Modell hedget, halluziniert selbstbewusst ein Datum, verweigert, wo es das nicht sollte — bewegen niemals Latenz oder 5xx. Das einzige Signal, das man dafür bekommt, ist das Kunden-Ticket, was das schlechtmöglichste Signal ist. Ein kontinuierlicher Qualitäts-Monitor fängt sie in einstelligen Minuten ein.
Wer es ausliefert: niemand. Das Observability-Lager (Arize, Phoenix, Confident, Deepchecks[7]) überwacht den Produktions-Output, erzwingt aber nichts. Das Serving-Canary-Lager beobachtet die Infra. Das Eval-CI-Lager sitzt nicht auf dem Traffic. Der geschlossene Kreislauf — Produktions-Traces → kalibrierter Judge → Enforcement — ist die fehlende Naht.
Fähigkeit 11. Atomares Rollback in Sekunden, nicht Minuten
Was es ist: wenn der Observer auslöst (sagen wir drei aufeinanderfolgende Minuten unter dem Schwellenwert), feuert das Rollback automatisch. Das Rollback verweist Routing erneut auf previous_release aus dem Manifest. Da das vorherige Release ein vollständig gebündeltes Manifest war, flippt jede Komponente atomar um. End-to-End einschließlich In-Flight-Drain auf einem ~100-Replica-Service: etwa 12 Sekunden[5].
Warum es wichtig ist: Cloudflares Ausfall im Juni 2022[8] brauchte 44 Minuten, um rückgängig gemacht zu werden. Die Ursache war nicht das Revert selbst — es war, dass Engineers über die Reverts der anderen liefen, weil der Zustand verteilt war. Manifest-getriebenes Rollback ist Single-Instruction; es kann diesen Failure-Mode nicht haben.
Wer es ausliefert: das Serving-Canary-Lager liefert schnelles Infrastruktur-Rollback aus (alarmgetriggert, Blue-Green-Flip). Der architektonische Unterschied ist, ob der Auslöser infra-only oder qualitätsbewusst ist (Fähigkeit 10).
Fähigkeit 12. Hash-verkettete, extern verankerbare Compliance-Quittung
Was es ist: jede Release-Entscheidung — Register, Gate-Pass, Gate-Fail, Gate-Override, Checkpoint-Promote, Auto-Rollback — emittiert eine JSON-mit-SHA-256-Quittung, hash-verkettet mit der vorherigen Quittung für diesen Kunden und der vorherigen Quittung für dieses Release. Die Kette wird extern in einem Zeitplan verankert, den der Kunde konfiguriert.
Open-Weights-Vorbehalt. Wenn das Release durch ein Open-Weights-Modell gestützt wird (Gemma, Qwen, Llama, Mistral, GPT-OSS), bettet die Quittung eine vindex-Gewichts-Attestierung ein — einen Beweis, dass die aktiven Gewichte zum Entscheidungszeitpunkt die Gewichte sind, die das Manifest registriert hat. Wenn das Release durch ein Closed-API-Modell gestützt wird (OpenAI, Anthropic, Google über undurchsichtige APIs), deckt die Quittung die Entscheidungskette ab, kann aber keine Gewichts-Provenance beanspruchen, weil der Anbieter die Gewichte nicht offenlegt. Die Quittung sagt das explizit. Das ist die Grenze des Verifizierbaren.
Warum es wichtig ist: regulierte Industrien bekommen heute Logs. Der EU AI Act und das NIST AI RMF[9] fragen zunehmend nach Beweisen. Eine hash-verkettete Quittung ist der Unterschied zwischen „wir haben ein Log“ und „ein Auditor kann die Kette verifizieren, ohne unserem Log zu vertrauen.“
Wer es ausliefert: niemand sonst. Das ist der Teil der Differenzierung, der direkt auf Divincis bestehende Compliance-Seite abgebildet wird — gleiches Quittungs-Format, erweitert auf Release-Entscheidungen.
Die 12 Fähigkeiten nach Plattform-Lager
Das Muster ist der Punkt. Fünf Fähigkeiten — Gate pro Slice, kalibrierter Judge, Qualitäts-Canary-Monitor, Closed-Loop-Replay, hash-verkettete Quittung — erscheinen als ✗ über jedes andere Lager hinweg. Das ist die Naht. Die anderen sieben verteilen sich über die Lager auf eine Weise, die jedes Lager intern kohärent, aber gegenseitig unvollständig macht.
Was unterscheidet QA für Custom Language Models von QA für Software?
LLMs sind nicht deterministisch, selbst bei Temperatur null — Batching und Hardware-Unterschiede verursachen Output-Variation. Diese eine Eigenschaft bricht die meisten Annahmen, auf denen traditionelle QA aufgebaut wurde:
- Sie können keine
expect(output).toEqual(X)-Assertions schreiben. Sie brauchen eine verteilungsbewusste Evaluation, die Rangkorrelation gegenüber einem menschlich verankerten Grader konsumiert, nicht Gleichheit gegenüber einer Fixture. Das ist, was Fähigkeit 5 ist. - Ein Modell kann eine aggregierte Qualitätsprüfung bestehen, während es bei einem Slice fehlschlägt. Deshalb existiert Fähigkeit 4 separat. Wenn Ihre Eval nicht slicen kann, kann sie keine slice-bewussten Regressionen einfangen.
- Qualitätsfehler sind auf der Infrastruktur-Ebene stumm. Latenz und 5xx bleiben sauber, während das Modell hedget oder halluziniert. Die Fähigkeiten 8 und 10 existieren, weil kein Infrastruktur-seitiger Monitor das sehen kann.
- Rollback ist nicht optional. Da Failure-Modes probabilistisch sind und einige still, muss der Rollback-Pfad primäre Infrastruktur sein, kein Backup-Plan. Fähigkeit 11 macht „12 Sekunden“ erreichbar; Fähigkeit 2 macht sie korrekt.
Eine QA- und Release-Plattform, die diese vier Tatsachen nicht berücksichtigt, liefert deterministische Software-CI/CD mit einem aufgeklebten LLM-Logo aus. Der Markt tut das oft.
Wie unterstützen Audit-Trails AI-Compliance in der Praxis?
Die häufigste Compliance-Lücke, die wir sehen — wenn ein Auditor sechs Monate nach dem Deployment ankommt und fragt „welche Version des Modells lief am 15. März und wer hat dieses Release genehmigt?“ — ist nicht „wir haben keine Logs.“ Es ist „wir haben Logs über fünf Systeme verteilt, und die Zeitlinien stimmen nicht überein.“
Eine Compliance-Quittung (Fähigkeit 12) löst dies, indem sie das Log selbst zu einem portablen Artefakt macht: hash-verkettet, Single-Source, extern verankerbar. Ein Auditor kann die Kette verifizieren, ohne unserer Infrastruktur zu vertrauen. Das ist der Unterschied zwischen „wir haben Aufzeichnungen“ und „die Aufzeichnungen sind beweisbar.“
Für Open-Weights-Modell-Backings enthält die Quittung außerdem eine Gewichts-Attestierung — einen kryptographischen Beweis, dass die aktiven Gewichte die Gewichte sind, die das Manifest registriert hat. Das erfüllt die schwereren Forderungen (GDPR Artikel 17 Recht auf Löschung, EU AI Act-Provenance), weil Sie nicht nur beweisen können, was deployed wurde, sondern dass die zugrundeliegenden Gewichte tatsächlich das sind, was sie zu sein behaupten.
Für Closed-API-Backings — wenn das Modell hinter einer undurchsichtigen API ausgeliefert wird und die Gewichte nicht offengelegt sind — deckt die Quittung die Entscheidungskette ab, kann aber keine Gewichts-Provenance beanspruchen. Wir sagen das explizit in der Quittung, statt einen Beweis zu suggerieren, den wir nicht liefern können. Das ist die Grenze des Verifizierbaren, wenn der Anbieter Gewichte intern hält.
Was diese Checkliste nicht löst
Drei ehrliche Einschränkungen:
Fähigkeiten sind keine Checkboxen um ihrer selbst willen. Eine Plattform, die alle zwölf schlecht ausliefert, ist schlechter als eine, die acht davon gut ausliefert. Die Checkliste ist ein Ausgangspunkt für die Evaluation, kein Scorecard für Vendor-RFPs.
Der Wettbewerbs-Snapshot stammt aus 2026 und wird sich verschieben. In sechs Monaten werden einige der ✗-Markierungen oben kippen — Mitbewerber werden Postmortems lesen und Lücken schließen. Wenn Sie diesen Beitrag im Jahr 2027 lesen, prüfen Sie die Markierungen selbst, bevor Sie ihnen glauben.
Einige Fähigkeiten hängen von anderen ab. Fähigkeit 8 (Output-Qualitäts-Canary-Monitor) setzt Fähigkeit 5 (kalibrierter Judge) voraus. Fähigkeit 10 (Closed-Loop-Trace-Replay) setzt beide voraus. Eine Plattform, die 8 ohne 5 ausliefert, liefert ein Placebo aus — der Canary-Monitor existiert, ist aber gegen nichts Vertrauenswürdiges geerdet.
FAQ
Was ist die wichtigste QA-Fähigkeit für Custom-LLM-Releases?
Ein Qualitäts-Gate pro Slice (Fähigkeit 4) — was bedeutet, dass die Release-Entscheidung Pro-Domäne-Spearman-Scores gegenüber einem menschlich verankerten Grader konsumiert, nicht einen einzigen globalen Aggregatwert. Aggregatwerte verwaschen lokalisierte Regressionen, und lokalisierte Regressionen sind der dominante LLM-Release-Failure-Mode des Jahres 2026[3]. Wenn Sie nur eine Fähigkeit aus dieser Liste ausliefern können, liefern Sie 4 aus. Liefern Sie dann 5 aus, was 4 vertrauenswürdig macht.
Wie evaluiert man eine LLM-QA-Plattform, ohne sie sechs Monate lang zu betreiben?
Wenden Sie die 12-Fähigkeiten-Checkliste oben auf die Anbieter-Dokumentation an, mit zwei spezifischen Tests. Bitten Sie den Anbieter erstens, Ihnen den Pro-Slice-Gate-Output für einen ihrer Referenzkunden zu zeigen — wenn sie nur Aggregatwerte haben, haben sie Fähigkeit 4 nicht. Fragen Sie zweitens, was ihr Auto-Rollback auslöst — wenn die Antwort „Latenz, Fehlerrate und unsere Alarme“ ist, sind sie im Serving-Canary-Lager und Fähigkeit 10 fehlt.
Was ist der Unterschied zwischen Eval-CI-Tools und Release-Management-Tools?
Eval-CI-Tools (Braintrust, Humanloop, Patronus) führen automatisierte Evaluatoren beim PR-Merge aus und blockieren schlechte Merges. Sie berühren niemals Live-Traffic. Release-Management-Tools (diese Kategorie) besitzen das Release-Manifest, den Canary, den Observer und den Rollback-Pfad. Eval-CI ist Teil eines Release-Management-Workflows, aber kein Ersatz dafür. Viele Teams liefern eines der beiden aus und entdecken die Lücke, wenn eine Regression, die CI bestanden hat, still in der Produktion einschlägt.
Wie schnell sollte Rollback sein?
In der Größenordnung von Sekunden, nicht Minuten. Die mittlere Rollback-Zeit auf der Divinci-Pipeline beträgt etwa 12 Sekunden — das ist In-Flight-Request-Drain auf einem ~100-Replica-Service, nicht der Manifest-Swap selbst, der Sub-Sekunden-bereich liegt. Vergleichen Sie das mit Cloudflares Incident vom Juni 2022[8], der 44 Minuten zum Revert brauchte, weil der Zustand über Systeme verteilt war. Die architektonische Entscheidung, die Sekunden-statt-Minuten möglich macht, ist das gebündelte Release-Manifest (Fähigkeiten 1 und 2).
Warum sind Compliance-Quittungen wichtiger als Compliance-Logs?
Ein Log ist etwas, das Sie geschrieben haben. Eine Quittung ist etwas, das ein Auditor verifizieren kann, ohne Ihnen zu vertrauen. Der EU AI Act und das NIST AI RMF[9] unterscheiden zunehmend zwischen den beiden — „dokumentiert“ ist nicht dasselbe wie „beweisbar“, und die regulatorische Richtung geht zu letzterem. Eine hash-verkettete, extern verankerte Quittung ist die einfachste verfügbare Technologie, um diese Linie zu überschreiten.
Referenzen
- Atlassian PIR April 2022. Post-Incident Review: April 2022 Outage. „The accelerated Restoration 2 approach took approximately 12 hours to restore a site." Zitiert für Fähigkeit 1 — wie über Systeme verteilter Zustand bei Skalierung aussieht.
- W&B Models / MLflow Registry. Weights & Biases Registry und MLflow Model Registry. Die Modell-Artefakt-only-Seite von Fähigkeit 1. Keiner von beiden liefert Prompt-Template-Registrierung aus.
- The Semver Lie. Tianpan — The Semver Lie: how an LLM minor update breaks production (April 2026). Benennt den slice-bewussten Regressions-Failure-Mode als das dominante Muster des Jahres 2026. Begleitbeitrag: LLM postmortem template — fields SRE missed. Anker für Fähigkeit 4.
- SageMaker Deployment Guardrails. Use canary traffic shifting und Auto-Rollback Configuration. Default
TerminationWaitInSecondsvon 600 (zehn Minuten), Maximum 1800 (dreißig Minuten). Der Standard-Infrastruktur-Metrik-Canary, mit dem der Beitrag bei den Fähigkeiten 8 und 10 kontrastiert. - Intern — atomarer Routing-Flip via Release-Manifest. Die ~12-Sekunden-Rollback-Zeit ist In-Flight-Drain auf einem ~100-Replica-Service; der Manifest-Swap selbst ist sub-Sekunde. Die Zahl stammt aus unserem eigenen Service, nicht aus einem Benchmark. Die Architektur, die das möglich macht, ist das gebündelte Manifest aus Fähigkeit 1.
- LLM-as-Judge Pro-Kategorie-Varianz. Zheng et al., Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (NeurIPS 2023). >80% Gesamtübereinstimmung GPT-4-vs.-Mensch, mit Pro-Kategorie-Varianz von Coding (86%) bis Schreiben (36–44%). Anker für Fähigkeit 5 — warum ein kalibrierter Judge pro Slice sein muss.
- Observability-Lager-Vergleich. Arize Phoenix, Confident AIs 2026-Observability-Tools-Vergleich. Alle liefern Monitoring und Alarmierung aus; keiner erzwingt Rollback. Anker für Fähigkeit 10s „Monitor ohne Enforcement"-Rahmung.
- Cloudflare-Ausfall Juni 2022. Cloudflare outage on June 21, 2022. „06:58: Root cause found and understood. Work begins to revert the problematic change… 07:42: The last of the reverts has been completed." 44 Minuten von „wir wissen, was wir zurücknehmen müssen" bis zum Abschluss des Reverts, teilweise weil Engineers über die Reverts der anderen liefen. Anker für Fähigkeit 11.
- NIST AI Risk Management Framework. NIST AI RMF. Governance, Mapping, Measurement, Management — die vier Kernfunktionen, auf die Fähigkeit 12 abbildet. Plus die Provenance-Anforderungen des EU AI Act unter artificialintelligenceact.eu. Anker für Fähigkeit 12.
Nächster Beitrag in dieser Serie: Validating and Releasing Custom LMs in Regulated Fields. Die obige Fähigkeiten-Checkliste ist generisch. Der nächste Beitrag ist spezifisch: der EU AI Act, GDPR Artikel 17, HIPAA und das NIST AI RMF — was jeder davon von einem Release-Prozess verlangt, welche Fähigkeiten oben welche Anforderung abdecken und wo die Trennung zwischen Open-Weights und Closed-Weights die Compliance-Story tatsächlich verändert.
Ready to Build Your Custom AI Solution?
Discover how Divinci AI can help you implement RAG systems, automate quality assurance, and streamline your AI development process.
Get Started Today