游侠网云服务,免实名免备案服务器 游侠云域名,免实名免备案域名

统一声明:

1.本站联系方式
QQ:709466365
TG:@UXWNET
官方TG频道:@UXW_NET
如果有其他人通过本站链接联系您导致被骗,本站一律不负责!

2.需要付费搭建请联系站长QQ:709466365 TG:@UXWNET
3.免实名域名注册购买- 游侠云域名
4.免实名国外服务器购买- 游侠网云服务

最近,一个原本主要存在于工程语境中的词,开始频繁出现在中文科技圈——Harness。

和许多技术概念类似,它的传播速度,往往快于理解速度。

在不同语境中,人们对它的理解并不一致:有人将其视为 agent 的一种工程实现方式,也有人将其理解为某种 AI runtime,还有观点认为它只是 prompt engineering 的延伸。

Harness 文章配图 1

一个还没被说清楚的问题:AI 能做,但做不稳

过去两年,AI 的进展几乎完全由模型能力驱动。

更强的推理能力、更长的上下文、更复杂的多步骤执行能力,使得 agent 在能力层面迅速逼近”可用”。但在一些已经进入真实系统的实践中,一个问题开始反复出现:这些任务可以一次成功,但难以稳定复现;可以接近正确,却在边界条件下偏离;即使 AI 能力在增强,但执行却变得不可预测…

在这些案例中,问题往往并不来自模型本身,而是系统缺乏足够的约束。于是一个新的共识开始形成:模型决定能力的上限,而系统,开始决定结果是否可复现。

也正是在这一背景下,一个原本存在于工程语境中的词,开始被反复提及:Harness

还没开始被讨论,有人已经跑通了

在”Harness”被命名之前,这一层能力并不存在一个统一的概念,而是以不同形态分散出现:coding agent、deep research agent,以及 multi-agent orchestrator。在工程实践中,这些能力各自独立运行,但一旦进入复杂任务场景,问题开始显现:执行路径不可控、结果难以复现、系统难以收敛。

与其说这是模型能力的限制,不如说,这是系统缺乏约束的结果。

据 36 氪了解,一支横跨中美的 AI 系统团队,长期专注于将模型能力转化为稳定可执行系统。团队核心成员来自 MIT、CMU 以及 Meta 大模型团队,创始人 Luke Wang 曾在 MIT Media Lab 从事 NLP 研究,由当时的 Twitter 首席数据科学家指导,其研究方向长期围绕语言模型与系统执行层的结合展开。

Harness 文章配图 2

上线不到一个月,这个项目在北美开发者社区迅速扩散,并在一个极其具体的场景中完成了”占位”:在 ETHGlobal New York 黑客松中,接近 50% 的团队选择使用它完成智能合约开发。

同期,它登顶 2025 年 10 月 Product Hunt 周榜,并获得月榜开发者工具第 2 名。而在底层代码执行层(尤其是 Rust 等系统级语言)上的稳定性表现,当时已优于包括 Cursor 在内的同类产品。

稳定性,是”长出来的”

对于这类系统来说,”做过”和”理解过”,往往是两件完全不同的事情。

在接近一年的持续实践中,围绕不断的迭代,Luke 团队逐步沉淀出一整套关于 agent 行为如何稳定收敛的工程经验。但这并不是某种可以被设计出来的能力。它更多来自反复的失败、修正,以及对系统行为的长期观察。

在这个过程中,团队的工作重心也在发生变化,不再只是优化某一类任务,而是不断在不同场景中测试系统的稳定边界。从软件执行,到更复杂的交互与设备环境,约束的形式、执行路径、反馈机制,都在被一层层重写。

为什么规则会失效?

很多团队的第一反应,是增加规则:通过 system prompt、instruction 或约束文档,试图将 agent 的行为引导至预期轨道。

但很快会发现,规则会被系统性地被违反。其原因在于,规则更多是被”理解”,而不是被”执行”。

在一个概率系统中,agent 可以理解规则、复述规则,甚至知道”应该怎么做”,但这并不意味着它会稳定地这样去执行。

从”规则”到”环境”

Harness 的关键转变在于:不再让 AI 记住规则,而是让错误路径无法发生。

在持续的工程实践中,一个变化开始变得明显:团队不再试图让 agent 记住规则,而是通过系统设计,让某些错误路径在结构上无法发生。

一个新的系统层,正在形成

Harness 并不是一个突然出现的概念。它更像是多个成熟工程体系,在 LLM 出现之后被重新组合到一起。sandbox、runtime 控制、类型系统、分布式约束、tool API 设计……

这些能力一直存在,只是分散在不同领域。直到 agent 出现,这些能力才开始指向同一个问题。

为什么是现在?

Harness 被集中讨论,并不是偶然。这更像是一个阶段信号:AI 的瓶颈,正在从模型,转向系统。过去的问题是模型能不能做,而现在的问题是,系统能不能稳定地让它每一次都这样做。

结语:分水岭已经出现

如果说过去两年 AI 的核心是能力,那么接下来,分水岭将不再属于模型。真正拉开差距的,是谁能够构建出让 AI 稳定执行的系统。

而 Harness,正在成为这一层的名字。


📰 来源:36Kr | 作者:时氪分享

🔗 原文链接:https://www.36kr.com/p/3736640995721472