在受监管领域验证并发布自定义语言模型

发布周期笔记 —— 第四部分

一位总法律顾问走进工程评审会议。她只问一个问题:“如果明天落地一份欧盟 AI 法案第 17 条的删除权请求,要求我们移除模型学到的关于某位特定患者的每一项事实,我们能证明已经做到了吗?”

大多数团队不得不给出的诚实答案是:“我们可以微调模型让它遗忘。我们可以给你看训练运行记录。但我们无法证明这些信息在结构上已经消失,因为它可能在适当的对抗性提示下重新出现。”

这不是合规答案。这是带着程序性耸肩的无答案。

本文讲的是对自定义 LLM 而言,真正的合规答案是什么样子 —— 跨四个监管框架(欧盟 AI 法案、GDPR 第 17 条、HIPAA、NIST AI RMF),映射到我们为客户发布交付的四阶段流水线(Register → Gate → Roll → Observe)。贯穿每一位监管者诉求的核心张力是开放权重 vs 封闭 API:你能对 Gemma 4 微调证明的事,和你对一个隐藏在不透明厂商 API 后面发布的版本能证明的事,并不是同一类。我们使用的回执格式逐行明确地说出了这一点。正是这种诚实让回执对审计人员有用。

四位监管者各自真正想要什么

合规讨论往往会塌缩成“我们把事情记录下来了“。这种说法过不了审计人员那一关。审计人员想要的是他们无需信任你的基础设施就能验证的证据。下文四个框架使用了不同的术语,但底层诉求是同一个。

让这些框架有意思的不是罚款数字。罚款数字让它们成为承重结构。有意思的部分是验证原语 —— 每个框架真正想让交付物长成什么样。四者中有三个以不同的术语要求加密级别的证据。第四个(NIST AI RMF)是自愿性的,但在企业采购中事实上是必需的。它们最终汇聚到同一个形状:一份审计人员可以在不信任你的日志的前提下验证的交付物。

分界:开放权重 vs 封闭 API

在按阶段映射之前,先说本文中最重要的限定:

对开放权重模型底座 —— Gemma、Qwen、Llama、Mistral、GPT-OSS,任何权重可寻址且可编辑的模型 —— 每一次 Divinci 的发布决策都会发出一份 vIndex 回执,其中包含一份权重证明:加密证据,证明决策时的活跃权重正好就是清单注册的权重。这正是让 GDPR 第 17 条可验证删除成为可能的关键。你应用一份 DELETE 补丁,从权重空间中移除某个特定的实体-关系,回执嵌入前后的哈希,审计人员就可以通过对照公开的 vIndex 重新跑一遍验证,确认删除已经发生。

对封闭 API 模型底座 —— OpenAI、Anthropic、Google 通过不透明 API —— 同一份回执覆盖了决策链(用了哪份清单、哪次门控结果、哪次监控读数、哪位用户触发了哪个动作),但无法主张权重来源,因为提供方不公开权重。回执会在 weight_attestation: null 字段中明确说明,并附带一条解释原因的 note。这不是降级的合规姿态 —— 这是可验证内容的边界,被诚实地写下来了。读到这份回执的审计人员会清楚地知道哪一类证明在交付,哪一类不在。

这条分界线贯穿下文每一位监管者的诉求。只要某个框架在权重级别提要求,开放权重路径就能满足,封闭 API 路径就不能。我们会在回执里直接这么说,而不是暗示一种我们交付不了的证明。

每个框架如何映射到四个流水线阶段

流水线有四个阶段。每位监管者的诉求映射到其中一个或多个。下面的矩阵就是那张实际的映射图。

两个 ◐ 单元格对应 GDPR 第 17 条 / 仅限开放权重的条目 —— 这些是封闭 API 路径无法完全满足的诉求。其余项目对两类底座都适用。

本文剩余部分逐个走过每个阶段的贡献。

阶段 ① —— Register

①

REGISTER发布清单就是欧盟 AI 法案附件 IV 的技术文档。

模型工件(HF 仓库 + 提交 SHA,或一个 vIndex 补丁引用)
提示模板(每个变量、每条系统消息 —— 受版本控制)
路由规则(哪一类流量落到哪个发布上)
用于计算门控阈值的数据集版本(按哈希给出的训练数据摘要)
上一次发布的 SHA(让审计链不断裂)
披露范围 —— 对 HIPAA 部署而言,模型被允许接收哪些 PHI 类别

清单就是文档。审计人员不会读散文;他们读清单哈希并验证整个包。不需要谁在六个月后写的散文摘要。

**开放权重的加分项。**当模型工件引用开放权重模型时,清单还会嵌入 vindex_sha256 —— 该模型已发布的 vIndex 的加密指纹。这个指纹让第三方可以验证活跃权重,而完全不必信任我们的部署基础设施。

**封闭 API 的限定。**当模型工件引用封闭 API 模型时,清单的 vindex_sha256 字段为 null,清单的 weight_attestation_class 为 decision_chain_only。读到此处的审计人员清楚地知道我们在主张什么,以及没在主张什么。

阶段 ② —— Gate

②

GATE分切片质量门承载欧盟 AI 法案的人工监督要求。

Gate 阶段是欧盟 AI 法案“人工监督措施“^[1]真正落地操作的地方。一个读完欧盟 AI 法案、得出“我们需要一个人工审批工作流“结论的监管者错过了要点 —— 更难的问题是人工到底在审批什么。Gate 阶段用每切片对人类锚定评分器的 Spearman ρ^[3] 回答了这个问题。在你的监管姿态中重要的每一个切片(儿科肿瘤学、IP 许可、比利时法语)都有自己的阈值。覆盖路径要求一份书面理由,并写入审计轨迹。

对受 HIPAA 约束的部署而言,这也是“最小必要“披露规则的归宿。门控的评分 QA 套件包含针对 PHI 过度暴露的负向测试 —— 那些在没有询问个人身份信息时却把它写进答案里的情况。一个在过度暴露切片上回归的发布会被门控拒绝,无论它在其他切片上表现如何。

对 NIST AI RMF 而言,Gate 阶段覆盖了“测量“职能 —— 系统在已配置容差内运行的分切片数值证据。

阶段 ③ —— Roll

③

ROLL金丝雀检查点成为上市后监测的交付物。

欧盟 AI 法案的上市后监测^[1]要求运营方演示持续的 —— 而非仅在上线前的 —— 对 AI 系统在真实条件下表现的观察。5% → 25% → 100% 的金丝雀加上质量监控检查点是满足这一要求最自然的方式。每个检查点的驻留时长,加上驻留期间的监控读数,正是审计人员想看的。

对 HIPAA 而言,金丝雀阶段也是每请求审计日志被端到端跑通的地方。每个检查点都会产出一批已签名的请求-响应回执样本;如果其中任何一份的 PHI 处理配置不当,它会在 5% 流量时浮现,而不是等到 100%。

阶段 ④ —— Observe

④

OBSERVE持续监控 + 回执格式让 GDPR 第 17 条变得可验证。

这是真正赢得合规叙事的阶段。Observe 阶段通过当前发布持续地重放跟踪流量,由 Gate 阶段使用的同一位人类锚定裁判评分,并由一个质量监控器在越界时触发自动回滚。

每一次发布决策 —— 注册、门控通过、门控拒绝、门控覆盖、检查点提升、检查点保留、自动回滚、手动回滚,以及任何 GDPR 第 17 条 DELETE 补丁的应用 —— 都会发出一份 vIndex 回执。它通过哈希链链接到该客户的上一份回执和该发布的上一份回执。

下面是一份针对 GDPR 第 17 条 DELETE 补丁的真实回执 —— 直接改编自合规页面记录的格式:

{
  "name": "gdpr-art17-patient-12348-removal",
  "version": 1,
  "base_model": "google/gemma-4-E2B-it",
  "manifest_sha256": "9abaeaf6c91f8b...",
  "previous_manifest_sha256": "8f72b1de4a93c5...",
  "created_at": "2026-05-29T03:17:42Z",
  "user_id": "compliance-officer-7c4e1a",
  "operation": {
    "op": "delete",
    "entity": "patient-record-12348",
    "relation": "diagnosis-association",
    "target": "weight-feature-11179-layer-27",
    "weight": -1.0
  },
  "verification": {
    "before_feature_11179_score": 17.34,
    "before_feature_11179_rank": 1,
    "after_feature_11179_score": null,
    "after_feature_11179_rank": "ABSENT_FROM_TOP_25",
    "perplexity_delta_wikitext103": "+0.02%",
    "vindex_sha256_before": "abc12...",
    "vindex_sha256_after":  "def34..."
  },
  "weight_attestation_class": "full",
  "chain_signature": "sha256(manifest || prev_manifest || user_id || created_at || prev_chain_signature)"
}

这份交付物是可验证的。审计人员不必信任我们的日志。他们拿走 vindex_sha256_after,从 huggingface.co/Divinci-AI 拉取对应已发布的 vIndex,验证第 27 层中的特征 11179 在结构上已从前 25 名中缺席。他们拿走 chain_signature 并对照前一份回执验证。整条链按客户配置的计划在外部锚定。

**对封闭 API 模型的相同操作。**上面的回执字段会有三处变化:operation.target 变为 provider_api_endpoint,verification 变为只覆盖决策链证据的另一种 schema,weight_attestation_class 变为 decision_chain_only。封闭 API 模型提供方没有公开权重,回执就这么写。想要权重级证明的审计人员现在知道他们需要去找提供方,而不是找我们。

这是 2026 年没有任何其他人交付的差异化。评估 CI 阵营(Braintrust、Humanloop、Patronus)不坐在流量上,也不发出决策回执。服务金丝雀阵营(SageMaker Deployment Guardrails^[2]、KServe、Vertex、BentoCloud、Seldon)发出基础设施指标日志,但不发出哈希链式合规回执。可观测性阵营(Arize、Phoenix、Confident、Deepchecks)观察输出,但不强制执行。

审计人员实际会验证什么?

一个有用的练习:走一遍真实审计人员会问的问题,以及哪份交付物回答了每一个问题。

审计人员的提问	回答它的交付物
“3 月 15 日 14:22 UTC 跑的是哪个模型版本?”	该时间戳对应的 Observe 阶段回执,已签名并哈希链接。
“这次发布在提升前通过了什么评估?”	Gate 阶段回执,带每切片 Spearman ρ 表和门控所跑数据集的 SHA。
“针对患者 X 的 GDPR 第 17 条删除请求确实执行了吗?”	上面那份 DELETE 补丁回执。审计人员对照已发布的 vIndex 验证 `vindex_sha256_after`。
“谁批准了这次发布?他们覆盖 IP 许可切片门控的理由是什么?”	Gate 阶段回执的 `override` 块,包含用户 ID 和必填的自由文本理由。
“回滚多快触发?哪条监控读数触发了它?”	Observe 阶段的回滚回执,包含三条连续低于阈值的质量读数和回滚耗时。
“给我看过去 90 天的上市后监测证据。”	Observe 阶段的回执链。按客户配置的计划在外部锚定。

审计人员不必做的事:信任我们的 Datadog。信任我们的 CloudWatch。信任一张截图。信任一份导出。回执格式存在的全部意义就是让审计人员可以独立验证它。

这套方法没有解决的问题

三个诚实的限制:

**GDPR 第 17 条范畴下的封闭 API 回归在平台层无法解决。**如果你在封闭 API 模型背后运行一个医疗助手,患者援引第 17 条,平台可以证明该患者的记录已从你的检索库、提示模板和路由规则中移除 —— 但无法证明底层模型权重遗忘了该患者的数据。你需要要么一个开放权重底座,要么厂商承诺权重级删除。我们在回执里就这么说。

**文档是必要但不充分的。**一份证明模型达到某个阈值的回执,并不证明这个阈值就是对的阈值。如果你的评分 QA 套件没有覆盖在你的服务中对患者真正重要的那个切片,再多的回执链接也补不上这一刀。监管机构越来越理解这一点;如果评估本身是错的,“我们通过了评估“已经不再是充分的合规答案。

**vIndex 格式是单一厂商的。**我们使用它,因为它是当今最具体的、能用于权重级证明的加密原语。如果业界最终统一到另一种格式 —— 带哈希的模型卡、NIST 发布的工件 schema —— 回执格式应当随之演化。承重的实质(哈希链、可外部验证、感知权重证明)才是关键,而不是具体的 schema 名称。随着监管和标准格局的成熟,我们预期它会变化。

FAQ

可验证删除意味着第三方可以在无需信任你的日志的前提下验证数据已被移除。微调模型让它“遗忘“特定信息并不满足这一标准 —— 该信息可能在对抗性提示下重新出现,而且没有审计人员可核验的加密原语。一份权重级 DELETE 补丁,加上已发布的前后 vIndex 哈希,确实满足该标准,因为审计人员可以对照公开的工件重新跑一遍验证。

因为提供方不公开权重。在无法访问权重的情况下,任何第三方 —— 包括使用该 API 的客户 —— 都无法发起或验证一次权重级删除。回执的决策链部分(使用了哪份提示模板、数据来自哪个检索库、哪些路由规则是活跃的)仍然可验证,但权重级主张不可。这是权重私有时可验证内容的边界,而不是合规框架本身的局限。

用通俗的话说,欧盟 AI 法案附件 IV 要求什么?

附件 IV 要求一份技术文档,覆盖系统的逻辑、训练数据摘要、预期用途、人工监督措施和上市后监测。大多数团队掉进去的陷阱是把这五项当成五份独立的文档。第 1 阶段的发布清单把前三项需求作为一个单一哈希承载下来;Gate 阶段覆盖第四项;Roll + Observe 阶段覆盖第五项。一条流水线;四个诉求作为正常运营的副产物被满足。

对受 HIPAA 约束的部署,回滚应该多快?

HIPAA 没有规定具体的回滚时间,但 HHS 关于违规响应的指导把遏制时间视为承重指标。秒级的回滚(在清单驱动的切换上进行飞行中流量排空 —— 我们的数字大约是 12 秒)在结构上比依赖警报传播的典型基础设施指标蓝绿切换更快。对比公开的事后分析:Cloudflare 2022 年 6 月的事故^[4]花了 44 分钟才完成回退,因为工程师们互相覆盖了对方的回退。

NIST AI RMF 如何映射到发布流水线?

NIST AI RMF 的四项核心职能 —— 治理、映射、测量、管理 —— 跨越整个发布生命周期,而不是某一个单独的阶段。治理是已记录的发布策略加上门控覆盖理由的工作流(Register + Gate 阶段)。映射是分切片的评分 QA 套件(Gate)。测量是分切片的 Spearman 阈值和持续质量监控(Gate + Observe)。管理是回滚路径和回执链(Observe)。当流水线发出完整的回执集时,四者都被覆盖。

参考资料

EU AI Act. artificialintelligenceact.eu. Annex IV defines the technical documentation requirements for high-risk AI systems: system logic, training data summary, human oversight measures, post-market monitoring. Penalties up to 7% of global turnover for non-compliance.
AWS SageMaker Deployment Guardrails. Use canary traffic shifting + Auto-Rollback Configuration. Default TerminationWaitInSeconds 600, max MaximumExecutionTimeoutInSeconds 1800. Cited as the industry-standard infra-metric canary that the Stage 4 quality monitor is contrasted against.
Calibrated LLM-as-judge agreement. Zheng et al., Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (NeurIPS 2023). >80% overall GPT-4-vs-human agreement, with per-category variance from coding (86%) down to writing (36–44%). Anchor for the per-slice Spearman calibration that drives the Gate stage.
Cloudflare June 2022 outage. Cloudflare outage on June 21, 2022. 44 minutes from "we know what to revert" to revert complete because engineers walked over each other's reverts. Anchor for the "manifest-driven rollback can't have that failure mode" claim.
NIST AI Risk Management Framework. NIST AI RMF. Voluntary framework — Govern, Map, Measure, Manage — that has become the de facto enterprise procurement baseline for AI governance. Voluntary but enforced in practice through customer due-diligence questionnaires.
HIPAA Privacy Rule. HHS Office for Civil Rights. Minimum-necessary disclosure, access audit, and breach response timing requirements applicable to any AI system that touches PHI. Civil monetary penalties up to $1.9M per violation-type per year per CMP inflation adjustment, 2025.
GDPR Article 17 (Right to Erasure). gdpr-info.eu/art-17-gdpr. The data subject's right to obtain erasure of personal data, and the controller's obligation to demonstrate compliance under Article 5(2) accountability. Penalties up to €20M or 4% of annual global turnover.
Internal — vIndex receipt format. The receipt JSON in this post is adapted from the format documented on the compliance page and demonstrated in the "Deleting Paris from a Language Model" post. The hash chain is SHA-256 over manifest || prev_manifest || user_id || created_at || prev_chain_signature. Externally anchorable on a customer-configured schedule.

本系列下一篇: **带即时回滚的自动化 LLM CI/CD 流水线。**本文展示了审计人员想要什么。下一篇展示让回执在数秒而非数周内送到审计人员桌面的操作模式 —— 四阶段流水线之下的自动化,重点说明回滚自行触发时会发生什么变化。

Ready to Build Your Custom AI Solution?

Discover how Divinci AI can help you implement RAG systems, automate quality assurance, and streamline your AI development process.

Get Started Today