统一声明:
1.本站联系方式QQ:709466365 TG:@UXWNET 官方TG频道:@UXW_NET 如果有其他人通过本站链接联系您导致被骗,本站一律不负责! 2.需要付费搭建请联系站长QQ:709466365 TG:@UXWNET 3.免实名域名注册购买- 游侠云域名 4.免实名国外服务器购买- 游侠云服务📋 背景
量子位 | 公众号 QbitAI
劳动节,马上100岁的vintage大模型也得劳动。
是的,有人给只有1930年知识的大模型,微调成软件工程师了……

🔍 详细内容
过程比想象中轻松,仅用250个训练样本,强悍的老头便解决了自己人生中的第一个编程问题——
一个连电视机都没见过的AI,现在也开始跟Claude们「学坏」,要跟程序员抢饭碗了。(bushi)
这是最近爆火的「老头AI」,全名叫talkie-1930-13b。
操盘手是AI研究员Nick Levine、多伦多大学副教授David Duvenaud,以及大家熟悉的那位——真·GPT系列之父Alec Radford。
而他们对老头最有趣的设计,就是其训练数据有条铁律:1931年1月1日之后的任何一个字,全部不准进!
是的,它不知道电视机,不知道互联网,更不知道二战怎么收场……

老头的世界,永远停在了1930年12月31日的午夜。
但让全网「瘫软」的点在于,就这么个老古董,当扔给它一道Python编程题时,这个跨越近百年的「过去之灵」,竟然写出了人生第一行Python代码。
有人对Alec Radford的这个1930 vintage LLM做了微调,让它去解SWE-bench上的真实软件工程问题。
250个训练样本之后,它落地了第一个fix——一个针对xarray库的小补丁。
对了,团队放出了老头在落地这个xarray库补丁的全过程。
说实话,如果以看前沿LLM的标准,这个demo看着真有点恼火。

一个简单的问题,老头足足花了49轮才搞定,又长又慢。
其中有些轮次实在看不下去了,真的太笨了,着急死了,但你又不好意思对老头发脾气。
但,这在某些时刻,反而让人更兴奋。跟看爽文一样。
我举个最「直接、不绕弯」的例子。(bushi)
在第12轮对话的时候,它尝试apply patch失败了。
老头没有放弃,它仍在继续尝试,直到终于意识到自己错在哪……

然后,在第44轮,它给修好了!!
我知道,fix本身很简单,别说AI SOTA了,代码水平跟小白比估计都够呛。
但真正重要的,是老头在整个解题过程中的思考。
这个过程展示出的那种推理能力,跟我们在现代模型上看到的如出一辙。
一个1930年的模型,也会试错,会反思,会自我修正。
demo之外,benchmark的表现同样亮眼。

当微调时的训练数据规模扩展到大约75K条trajectory,也就是10亿token的时候,模型在SWE-bench-Verified上达到了4.5%的pass@1。
要知道,它原来在HumanEval上才4%的pass@100。这进步幅度相当可观。
虽然绝对值还很低,但对一个1930年知识模型来说,已经很离谱了。
事实上,团队还同时给老头训练了一个兄弟模型,叫talkie-web,这个模型是在互联网数据上预训练的。
同样的微调配方,talkie-web在SWE-bench-Verified上的成绩是5.5%的。
没错,即便团队偏心,给孪生兄弟加上互联网数据,也就比老头高了1个百分点。

这不是什么穿越爽文,团队已经在GitHub上开源了项目,链接放在文章结尾,感兴趣的朋友可以去跑跑看。
团队自己也很兴奋,在README里喊话:
如果你手头有更多算力,我们很想看到1930模型和互联网模型在后训练持续扩展时的完整scaling曲线对比。
想看想看,这可比单纯秀肌肉的benchmark有意思多了。
💡 分析与影响
团队并没有剖析背后的原因,但我看了不少网友在帖子下面的评论,觉得这是一个值得讨论的话题。
我们一直以为,AI需要吃掉整个互联网才能变聪明。
但如果一个只读过1930年以前书的模型,经过一点点后训练就能写代码修bug……
那我们对「什么是智能」的理解,是不是也得重新想想?
4.5%的pass@1,放在今天的SOTA面前当然不够看。但它证明的那件事,比任何benchmark分数都重要。
一个1930年代的人,如果拥有几乎相同的教育体系,完全可以理解现代软件工程。

一百年前的数据量,加上正确的后训练方法,就足以产生现代意义上的推理。
智能的瓶颈,或许从来不在于预训练数据的多少。
你不需要一个训练过所有知识的模型,它只需要具备基本的语言理解能力,这就够了。
或许,当我们在Scaling路上一路狂奔的间隙,也可以稍微停一停,抬起头来跟身边人侃侃大山、扯扯淡——
GitHub:https://github.com/RicardoDominguez/talkie-coder
参考链接:[1] https://x.com/rdolmedo_/status/2050665193374732430?s=20[2] https://github.com/RicardoDominguez/talkie-coder

国内首个!兼容Tinker范式且全面开放
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
7. 如遇到加密压缩包,请使用WINRAR解压,如遇到无法解压的请联系管理员!
8. 精力有限,不少源码未能详细测试(解密),不能分辨部分源码是病毒还是误报,所以没有进行任何修改,大家使用前请进行甄别!
站长QQ:709466365 站长邮箱:709466365@qq.com



