游侠云服务,免实名免备案服务器 游侠云域名,免实名免备案域名

统一声明:

1.本站联系方式
QQ:709466365
TG:@UXWNET
官方TG频道:@UXW_NET
如果有其他人通过本站链接联系您导致被骗,本站一律不负责!

2.需要付费搭建请联系站长QQ:709466365 TG:@UXWNET
3.免实名域名注册购买- 游侠云域名
4.免实名国外服务器购买- 游侠云服务

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:当AI能瞬时完成200小时工作,人类反而成了“瓶颈”。METR这场演练揭示:未来执行力将极速贬值,人类的判断与反馈效率将是唯一的决胜点。文章来自编译。

METR 旨在让公众及时了解 AI 的能力及其带来的风险。从某些衡量标准来看,AI 可谓史上发展最快的技术,且随着 AI 把自身的研发(R D)自动化,这一进程可能会进一步加速。到明年年底,模型发布的频率和所需的新评估(evals)数量可能会达到如果没有高效 AI 辅助,仅靠我们自己获取信息都将成为挑战的程度。我们不能等到这类工作流变得必不可少时才被动地去摸索 AI 增强型工作模式;我们需要现在就开始理解它们。

因此,我们进行了一场为期 2 小时的桌面演练:三名 METR 研究员扮演现实中的自己及其当前的工作重心,但假定他们可以使用可连续工作约 200 小时的 AI——这大致是我们对 12 到 18 个月后技术水平的预期。我们的目标是了解会产生哪些工作流、瓶颈在哪里,以及我们的实际效率能提升多少。

METR 拥有 200 小时时间跨度的 AI 来自动化我们的工作;而世界其他地方使用的是 2026 年 2 月的真实技术(约 12 小时时间跨度的 AI)。

我们拥有适用于 200 小时时间跨度 AI 的 Codex/Claude Code 版本以及基础的项目管理工作流。

但现在的情况是 2026 年 2 月,因此我们评估的是 2026 年的 AI,使用 2026 年版本的 Inspect,通过电子邮件等方式与人沟通。

AI 现在拥有约 200 个人类小时的时间跨度,但其相对能力特征与 2026 年初的 AI 相似。

它们在可验证的任务上表现惊人,在复杂凌乱的任务上表现尚可。

AI 的运行速度是 Claude 4.6 Opus 快速模式的两倍。我们负担得起用这种速度跑模型的成本。

对于与 HCAST 任务平均“复杂程度”相当的可验证任务,200 个人类小时的工作量对应 50% 的成功率,40 个人类小时则对应 80% 的成功率。

对于较难验证的任务,由游戏主持人(GM)决定 AI 的成功程度。

在写作方面,如果具备相关上下文,AI 的水平相当于 METR 的入职级员工。

一名经理和两名研究员扮演现实中的自己及其当前的工作重点。我(Thomas Kwa)担任主持人。

每个回合代表半天,每天进行两次站会。每个回合在现实中占用 15 分钟:5 分钟站会,10 分钟模拟 5 小时的工作。我们最终完成了 4 个回合(模拟 2 天的时间)。[1]

所有人同时在电子表格中记录,每小时填写自己和智能体(agents)的操作,并在必要时咨询主持人。你可以在下方看到电子表格的截图。

图 1:Nate Rush 正疯狂地给未来版本的 Claude 发送提示词,以改进我们的人类数据基础设施。在第 2 天,他会意识到,仅仅理解 Joel 和 Tom 的智能体所构建的内容就已经让他应接不暇了。

大多数人估计,与 2026 年 2 月相比,效率提升了约 3 到 5 倍(即在这 2 天内完成了 1 到 2 周的工作)。我不想过度强调这个数字,因为它可能受到实际完成量乐观评估的影响,且不同团队之间差异巨大,我认为定性结论更有趣。在这些前提下,我注意到,如果时间跨度为 2026 年 2 月模型 17 倍的模型仅带来 3 倍的效率提升,那么时间跨度与加速比之间的关系大约为($加速比 \\propto TH^{0.39}$)。

在这次 3 人游戏以及我之前运行的两次单人 Alpha 测试中,出现了一些共同的主题:

想法没有执行快:一旦你有了想法,智能体就会立即开始实施。因此,你不再是连续构思几天,而是在几个小时内就能做出一个最小可行产品(MVP)并进行修正。如果任务并未接近智能体能力的极限,你会把所有时间都花在理解结果上;如果任务具有挑战性,你则会把所有时间都花在检查其工作上。

让智能体彻夜工作:在夜间,智能体可以完成约 200 个人类小时的工作,但仅限于非常适合智能体的任务。因此,研究人员需要刻意安排项目顺序,确保适合智能体的超长任务(例如优化一个定义明确的指标)在夜间进行。

优先级排序和组织管理成为瓶颈:如果智能体执行想法的速度几乎和你输入提示词的速度一样快,那么只实现最好的想法就没有意义了。并行实现前三个想法可能更好,但这会增加保持条理的难度。即使有 AI 编写的仪表板来优化人类的理解,项目的复杂度也可能会以某种方式上升,令项目管理变得困难得多。

基于这次演练,我预见到了以下趋势(当然,预测未来向来是极其困难的):

声明式工作流:我已经通过编写设计文档并让智能体实施来完成大部分工作,这让我和智能体都能保持进度同步。在未来一年里,这可能会演变成 Tom Cunningham 在下文提到的“写下你的局部效用函数”工作流。

投机性执行:为了防止串行瓶颈(见下一节),研究人员可能会使用两种形式的投机性执行:启动大量不确定项目是否需要的长期实验,以及预测实验结果和反馈(见 Tom Cunningham 的“智能体可以缓解瓶颈”部分)。

“正确性证明”:如果智能体仍不能做到百分之百可靠,那么智能体生成的、最有价值的输出形式将是向人类证明其代码符合规范。这可能包括测试、提高可复现性的写作、记录设计文档中每一行的具体实施位置,在极端情况下还包括形式化验证。

如果执行基本变成瞬时的,还会发生什么?原本与执行并行的串行耗时任务将不再能并行,而是成为串行瓶颈。项目总时长的大部分可能被人类数据、机器学习实验和反馈(来自同行、经理,尤其是外部顾问)等环节占据。

图 2:我们可能会面临嵌套的迭代循环,其中执行的“内环”比“外环”快得多,而项目进度会被需要一定串行时间的步骤所卡住。对于智能体擅长的任务,这已是事实,并且可能会扩展到几乎所有项目。

我想象未来 METR 项目(例如关于多智能体破坏能力的论文)的时间线将如下表所示(文字描述见脚注 [2])。它可能需要六周的自然时间,其中约有 8 小时的智能体工作量(不计算运行评估的时间),这意味着瓶颈耗时与智能体工作量的比例远超 100:1。

图 3:未来的项目可能需要约 42 天的自然日,包含约 8 小时的智能体工作量(不计评估运行)以及 1000 小时的人类 IC 工作、评估执行和评审等串行时间。现实中,人类可能会适应新的限制,因此项目时间线不会完全长成这样。

人们可能会并行开展多个项目,由智能体向他们简报每个项目的状态。当项目多到任务切换成本过高时,人类个体贡献者可能会通过额外工作来略微提升每个项目的质量。

某些组织将面临巨大的竞争压力,不得不精简评审流程并提高实验的串行速度。

每个人都很享受这次演练:两名参与者给出了 9/10 的评分,一名甚至给出了“11/10”。我希望这能成为 METR 的常规演练——比如每月举办一次,在倾向性团队、能力团队、运营团队以及全公司之间轮换。

如果再次运行,我会尝试一些其他变体:

一个 50 小时时间跨度的版本,以此指导 METR 下季度的运营。这需要在我们运行前不至于过时。

想象我们拥有能充分利用 200 小时 TH AI 基础设施的版本。这需要每个人发挥更多的想象力。

一个针对 AI 研发研究的版本。了解当工作接近自动化时的瓶颈所在,并粗略估计未来的效率提升,可以为时间线和起飞模型提供参考。

一个能更好模拟研究员在多个并行项目上产出的版本。当前版本允许以小时为单位进行任务切换,但每隔几分钟切换一次任务则需要更高的分辨率。

我们花了 2 小时进行 Thomas Kwa 的演练:假定我们拥有极强的 AI(200 小时时间跨度),但其他一切保持不变:我们的工作仍然是研究 2026 年 2 月模型的各种能力,且全球其他所有人仍在使用 2026 年 2 月的技术。

我在思考我仍然想做数据分析和写报告,以及我将如何利用强大的 AI 来实现这一点。我构思的工作流是:(1)写下我的总体目标;(2)智能体根据这些目标草拟产出;(3)我对产出提供反馈;(4)带着更新后的目标回到第 2 步。

目标示例:“给我一张优化基准测试表,列应包括与选择第三方风险评估基准相关的内容。我希望能够区分哪些信息是确定的,哪些是推测性的。要让它具有自验证功能,比方说根据独立智能体对每项声明的审计结果显示勾选或叉号。”

我已经在利用智能体做类似的事情,但在这种情况下,我期望的可靠性能再提高几个层次。与其说“我希望这张图表可以点击”,不如说“我希望这份报告具有可读性、全面性、量化性且可验证”。

深入思考后,我很快遇到了其他瓶颈:(1)启动新的运行任务;(2)获取他人的反馈。

一旦你能使用智能体自动化掉大部分的工作,感觉你就会在非自动化部分遇到瓶颈。但事实上,非自动化部分通常是可以预测的,这缓解了瓶颈。

智能体对 Beth、Hjalmar、Ajeya 可能给出的评论的最优预测。

智能体对调查结果的最优预测(如果你发起调查的话)。

智能体对基准测试结果的最优预测。

智能体对这在 Twitter 上反响的最优预测。

此外,你可以点击查看智能体做出每项预测的原因。我觉得这些会显著缓解瓶颈,我可以不断迭代,直到从外界接收到的信息(人类反馈、数据、调查)具有最大的信息量,然后再发送进行评审。

我想到了两个类比:研究实验室的 PI,或者麦肯锡的合伙人。

两者都把时间花在审查他人的产出、提供建议以及等待下一轮评审上。

这种设定非常高效,但也存在病理性的弊端。我认为许多 PI 没时间去理解详细的统计或概念论证,进而博士生和博士后也就没有动力去检查这些论证,最终实验室可能会产出一些流于表面的论文。

然而,对于智能体来说,这似乎不那么令人担忧,因为你总能进行低成本的验证。

在这个世界上,感觉在该领域经验较少的初级人员相对于经验丰富的人员将很难做出贡献。

从概念上讲,我觉得智能体应该构建一个图,或者一个从输入到输出的函数。输出是最终报告,输入是(i)我的偏好,(ii)数据源,(iii)外部参考资料;在它们之间是处理和集成的所有阶段。然而,弄清楚 DAG 的实际细节是很困难的:

对于随意的惯例(比方说使用哪个库、什么字体、什么布局)是如何做出决策的?通常有很多同样好的决策,但保证决策的一致性至关重要。

当我对产出提供反馈时,智能体应该如何存储该反馈以便将来使用,以及如何保持正确的泛化水平?

如果我的反馈是错误的(例如基于误解),该如何将其整合进去?

感觉在寻找正确的图结构以使工作最有效方面,还有很多进展空间。

📌 原文链接

https://36kr.com/p/3748263885914880

来源:36氪