一期讲透 · 最近爆火

Harness Engineering 到底是什么？

不是单纯把提示词写得更厉害，而是给 agent 一整套“能稳定做对事情”的运行环境。它回答的是：模型进了真实世界以后，怎么别跑偏。

把它想成一辆很聪明的赛车：模型是引擎，Prompt 是方向说明，Context 是导航地图，而 Harness 是刹车、仪表盘、车道辅助、故障恢复、终点验收……真正决定你能不能安全又稳定跑完全程的那一整套系统 💧

真实案例 · 成功率跃迁

70% → 95%+

模型没换、提示词没换，提升来自任务拆解、状态管理、关键步骤校验、失败恢复等 harness 层优化。

一句话本质

Same model,
better system

相同模型在不同团队手里效果差很大，差异常常不在模型本身，而在模型外部的执行系统。

AI 系统工程的三个阶段

这不是三门互相替代的学问，而是层层包裹、逐级升级的系统能力。越往后，越接近“真实世界里的可靠执行”。

Stage 01

Prompt Engineering

核心问题：模型有没有听懂你说什么？

把话说对

Stage 02

Context Engineering

核心问题：模型有没有拿到足够且正确的信息？

把信息给对

Stage 03

Harness Engineering

核心问题：模型在真实执行中能否持续做对？

让系统持续做对

Prompt ⊆ Context ⊆ Harness

Prompt 解决的是“表达问题”

大模型本质上是上下文敏感的概率生成系统。提示词工程并不是按按钮发命令，而是在通过角色设定、风格约束、few-shot 示例、输出格式引导等方式，塑造一个局部概率空间。

🎯

核心能力：语言设计。让模型更容易理解你的意图和输出形式。

🪄

擅长：表达清楚、风格控制、格式约束、激发已有能力。

但它的天花板也很明确

×

无法弥补模型没有的知识

×

无法承载大量动态信息

×

无法管理长链路任务状态

×

无法监督多步执行是否偏航

一句话理解 Prompt Engineering 解决的是“怎么说”，不是“系统怎么运转”。

Context 解决的是“信息问题”

当 agent 要多轮对话、调浏览器、写代码、查数据库时，问题已经不再是一句话写得好不好，而是整条链路里，模型在每一个瞬间有没有拿到“当前决策真正需要的那部分信息”。

Context 到底包含什么？

👤

用户输入与历史对话

📚

检索结果、外部证据、工具返回

🧩

任务状态、中间产物、系统规则

🛡️

安全约束、其他 agent 的结构化结果

成熟实践不只是 RAG

✂️

文档切块与召回排序

🫧

长文压缩与历史摘要

🚦

工具结果要不要全部暴露给模型

📦

agent 之间传原文还是传结构化字段

关键洞察：渐进式披露 上下文优化不是给得越多越好，而是按需、分层、在正确时机，把最相关的信息送进去。不是信息堆叠，而是信息编排。

Harness 解决的是“执行过程”

即使信息给对了，模型依然可能在连续行动中跑偏：计划对、执行歪；工具会调、结果会看错；长链路任务越走越偏航。Harness 的价值就在于为执行过程加上监督、约束和纠偏机制。

它不是额外缝补的补丁，而是 agent 运行时真正的“缰绳系统”——在每个关键节点上，让模型别失控、别自嗨、别糊弄交差。

工程维度	客户拜访类比	本质
Prompt	交代任务：寒暄、介绍方案、挖需求	把话说明白
Context	准备资料：客户背景、沟通记录、报价	把信息给对
Harness	带 checklist、关键节点汇报、发现偏差纠正、按标准验收	持续观测、纠偏、验收的机制

成熟 Harness 的六层结构

根据 LangChain 的定义：Agent = Model + Harness。也就是说，除了模型本身之外，那些让 agent 真正可靠工作的东西，几乎都属于 harness。

1. 上下文工程层 LAYER 01

让模型在正确信息边界内思考：角色目标定义、信息裁剪选择、结构化组织。

2. 工具系统层 LAYER 02

让模型接触真实世界：工具数量平衡、正确调用时机、结果提炼再回流。

3. 执行编排层 LAYER 03

为行动建立轨道：理解目标 → 补足信息 → 分析 → 输出 → 检查 → 修正或重试。

4. 记忆和状态层 LAYER 04

分清当前任务状态、长期记忆、用户偏好，避免系统越跑越乱。

5. 评估和观测层 LAYER 05

不仅会做，还要知道是否做对：输出验收、环境验证、自动测试、错误归因。

6. 约束校验与失败恢复层 LAYER 06

真实世界失败是常态：需要约束、校验、恢复三件套，系统才敢上线。

01 / Context Boundary

让模型别“想太多”也别“知道太少”

不是越多越好，而是越相关越好。信息边界清晰，模型才不会被噪声带跑偏。

02 / Execution Track

让行动过程有轨道

不要让 agent 想到哪做到哪。成熟系统要明确下一步该做什么、何时停下来检查。

03 / Recovery Logic

让失败成为被设计过的路径

超时、误检、脏数据都很正常。真正的系统感，来自失败后还能稳稳回到正轨。

目标理解

明确成功标准

信息判定

不够就补，不猜答案

输出生成

按结构推进而不是即兴发挥

校验修复

不满足就回退、重试、修正

一线公司的真实实践

Anthropic

Context Reset：上下文太满时，不是继续压缩，而是交接给一个全新的干净 agent，像内存泄漏后重启进程再恢复状态。

生产验收分离：Planner 产规格，Generator 做实现，Evaluator 像 QA 一样真实测试，而不是自己做完自己夸。

OpenAI

把工程师角色从“写代码的人”变成“设计决策环境的人”。agent 失败时，不问它为什么不努力，而问环境里缺了什么结构性能力。

Google DeepMind

用分层验证机制建立验证链：工具结果被编排层验证，编排输出被评估层验证，最终输出再被约束层验证，层层把关。

Microsoft

把 Harness Engineering 产品化成 AutoGen：多 agent 编排、人工参与插槽、可插拔校验器，让 harness 不只是理念，而是框架级能力。

从 Prompt 到 Harness 的进化路径

Prompt Engineering	Context Engineering	Harness Engineering
把话说对	把信息给对	让系统持续做对
语言设计	系统设计	环境设计
单点优化	链路打通	持续驾驭

核心心法 1 / 2 1. 不要怪模型，要先检查 harness 缺了什么。
2. Harness 是产品，不是补丁。

核心心法 3 / 4 3. 验收必须独立。
4. 失败是设计的一部分，而不是事故。

Final Takeaway

“未来的 AI 工程师，核心竞争力不是写提示词，而是设计 agent 的运行环境。”

Harness Engineering = 让聪明，变成稳定可靠的聪明 ✨

这一版我特意把技术内容做成了“深色玻璃感 + 可爱糖果色点缀 + 讲故事式分镜”的浏览体验：既保留专业感，又不会像在看枯燥白底培训文档。后面如果你想，我还可以继续帮你加：翻页动画、章节缩略图、演讲备注模式、导出 PDF 按钮。