🎭
AI Systems Design · Harness Engineering
像 PPT 一样浏览 · 可爱但不幼稚 ✨
一期讲透 · 最近爆火

Harness Engineering 到底是什么?

不是单纯把提示词写得更厉害,而是给 agent 一整套“能稳定做对事情”的运行环境。它回答的是:模型进了真实世界以后,怎么别跑偏。

把它想成一辆很聪明的赛车:模型是引擎,Prompt 是方向说明,Context 是导航地图,而 Harness 是刹车、仪表盘、车道辅助、故障恢复、终点验收……真正决定你能不能安全又稳定跑完全程的那一整套系统 💧
真实案例 · 成功率跃迁
70% → 95%+

模型没换、提示词没换,提升来自任务拆解、状态管理、关键步骤校验、失败恢复等 harness 层优化。

一句话本质
Same model,
better system

相同模型在不同团队手里效果差很大,差异常常不在模型本身,而在模型外部的执行系统。

🧠
Three Stages of AI Engineering
Prompt ⊆ Context ⊆ Harness

AI 系统工程的三个阶段

这不是三门互相替代的学问,而是层层包裹、逐级升级的系统能力。越往后,越接近“真实世界里的可靠执行”。

Stage 01

Prompt Engineering

核心问题:模型有没有听懂你说什么?

把话说对
Stage 02

Context Engineering

核心问题:模型有没有拿到足够且正确的信息?

把信息给对
Stage 03

Harness Engineering

核心问题:模型在真实执行中能否持续做对?

让系统持续做对
Prompt ⊆ Context ⊆ Harness
💬
Prompt Engineering
语言设计,而非系统设计

Prompt 解决的是“表达问题”

大模型本质上是上下文敏感的概率生成系统。提示词工程并不是按按钮发命令,而是在通过角色设定、风格约束、few-shot 示例、输出格式引导等方式,塑造一个局部概率空间。

🎯
核心能力:语言设计。让模型更容易理解你的意图和输出形式。
🪄
擅长:表达清楚、风格控制、格式约束、激发已有能力。

但它的天花板也很明确

×
无法弥补模型没有的知识
×
无法承载大量动态信息
×
无法管理长链路任务状态
×
无法监督多步执行是否偏航
一句话理解 Prompt Engineering 解决的是“怎么说”,不是“系统怎么运转”。
🗂️
Context Engineering
渐进式披露 · 按需、分层、在正确时机给

Context 解决的是“信息问题”

当 agent 要多轮对话、调浏览器、写代码、查数据库时,问题已经不再是一句话写得好不好,而是整条链路里,模型在每一个瞬间有没有拿到“当前决策真正需要的那部分信息”。

Context 到底包含什么?

👤
用户输入与历史对话
📚
检索结果、外部证据、工具返回
🧩
任务状态、中间产物、系统规则
🛡️
安全约束、其他 agent 的结构化结果

成熟实践不只是 RAG

✂️
文档切块与召回排序
🫧
长文压缩与历史摘要
🚦
工具结果要不要全部暴露给模型
📦
agent 之间传原文还是传结构化字段
关键洞察:渐进式披露 上下文优化不是给得越多越好,而是按需、分层、在正确时机,把最相关的信息送进去。不是信息堆叠,而是信息编排。
🎛️
Harness Engineering
持续观测、纠偏、验收

Harness 解决的是“执行过程”

即使信息给对了,模型依然可能在连续行动中跑偏:计划对、执行歪;工具会调、结果会看错;长链路任务越走越偏航。Harness 的价值就在于为执行过程加上监督、约束和纠偏机制。

它不是额外缝补的补丁,而是 agent 运行时真正的“缰绳系统”——在每个关键节点上,让模型别失控、别自嗨、别糊弄交差。
工程维度客户拜访类比本质
Prompt交代任务:寒暄、介绍方案、挖需求把话说明白
Context准备资料:客户背景、沟通记录、报价把信息给对
Harness带 checklist、关键节点汇报、发现偏差纠正、按标准验收持续观测、纠偏、验收的机制
🏗️
6 Layers
Harness = Agent - Model

成熟 Harness 的六层结构

根据 LangChain 的定义:Agent = Model + Harness。也就是说,除了模型本身之外,那些让 agent 真正可靠工作的东西,几乎都属于 harness。

1. 上下文工程层 LAYER 01

让模型在正确信息边界内思考:角色目标定义、信息裁剪选择、结构化组织。

2. 工具系统层 LAYER 02

让模型接触真实世界:工具数量平衡、正确调用时机、结果提炼再回流。

3. 执行编排层 LAYER 03

为行动建立轨道:理解目标 → 补足信息 → 分析 → 输出 → 检查 → 修正或重试。

4. 记忆和状态层 LAYER 04

分清当前任务状态、长期记忆、用户偏好,避免系统越跑越乱。

5. 评估和观测层 LAYER 05

不仅会做,还要知道是否做对:输出验收、环境验证、自动测试、错误归因。

6. 约束校验与失败恢复层 LAYER 06

真实世界失败是常态:需要约束、校验、恢复三件套,系统才敢上线。

🔍
Why These Layers Matter
不是列概念,是拼成可靠性
01 / Context Boundary

让模型别“想太多”也别“知道太少”

不是越多越好,而是越相关越好。信息边界清晰,模型才不会被噪声带跑偏。

02 / Execution Track

让行动过程有轨道

不要让 agent 想到哪做到哪。成熟系统要明确下一步该做什么、何时停下来检查。

03 / Recovery Logic

让失败成为被设计过的路径

超时、误检、脏数据都很正常。真正的系统感,来自失败后还能稳稳回到正轨。

目标理解

明确成功标准

信息判定

不够就补,不猜答案

输出生成

按结构推进而不是即兴发挥

校验修复

不满足就回退、重试、修正

🏢
Industry Practice
Anthropic · OpenAI · DeepMind · Microsoft

一线公司的真实实践

Anthropic

Context Reset:上下文太满时,不是继续压缩,而是交接给一个全新的干净 agent,像内存泄漏后重启进程再恢复状态。

生产验收分离:Planner 产规格,Generator 做实现,Evaluator 像 QA 一样真实测试,而不是自己做完自己夸。

OpenAI

把工程师角色从“写代码的人”变成“设计决策环境的人”。agent 失败时,不问它为什么不努力,而问环境里缺了什么结构性能力。

Google DeepMind

用分层验证机制建立验证链:工具结果被编排层验证,编排输出被评估层验证,最终输出再被约束层验证,层层把关。

Microsoft

把 Harness Engineering 产品化成 AutoGen:多 agent 编排、人工参与插槽、可插拔校验器,让 harness 不只是理念,而是框架级能力。

🧭
Evolution Path
从“写提示词”到“设计环境”

从 Prompt 到 Harness 的进化路径

Prompt EngineeringContext EngineeringHarness Engineering
把话说对把信息给对让系统持续做对
语言设计系统设计环境设计
单点优化链路打通持续驾驭
核心心法 1 / 2 1. 不要怪模型,要先检查 harness 缺了什么。
2. Harness 是产品,不是补丁。
核心心法 3 / 4 3. 验收必须独立。
4. 失败是设计的一部分,而不是事故。
Final Takeaway
“未来的 AI 工程师,核心竞争力不是写提示词,而是设计 agent 的运行环境。”
Harness Engineering = 让聪明,变成稳定可靠的聪明 ✨
这一版我特意把技术内容做成了“深色玻璃感 + 可爱糖果色点缀 + 讲故事式分镜”的浏览体验:既保留专业感,又不会像在看枯燥白底培训文档。后面如果你想,我还可以继续帮你加:翻页动画、章节缩略图、演讲备注模式、导出 PDF 按钮。
01 / 10