Chapter 1L3
为什么“能演示”不等于“能交付”
AI 项目的第一大错觉,是把一次跑通误判为稳定可交付。
内容即将上线
Chapter 2L3
AI 系统如何做评估
评估不是事后补救,而是系统设计的一部分。
内容即将上线
Chapter 3L3
如何定位失败原因:模型、上下文、工具、数据、环境、流程
系统调试的关键,是先分层归因,再按优先级修复。
内容即将上线
Chapter 4L3
Skill Eval:可复用能力为什么也要评测
能复用的能力资产,必须有回归验证,而不是只靠经验信任。
内容即将上线
Chapter 5L4
Computer Use 的可靠性与安全评估
环境级自动化最大的风险,不在失败本身,而在错误动作的后果。
内容即将上线
Chapter 6L4
日志、Tracing 与可观测性基础
没有留痕,就没有办法真正优化多步 AI 系统。
内容即将上线
Chapter 7L4
成本、延迟与用户体验的平衡
最强模型未必是最优解,现实约束决定系统可持续性。
内容即将上线
Chapter 8L4
从可用到可靠:AI 系统的最小工程化原则
版本化、回归、护栏与人工兜底,是从玩具到产品的最低门槛。
内容即将上线