2026-02-01 12:19:00
近日,「发推狂魔」马斯克转发了一个帖子,Neuralink 植入脑芯片的患者,现在已经能靠脑子里的意念直接玩游戏了,完全不需要手柄、鼠标、键盘啥的控制器。
对于网友「我们正生活在未来,这太神奇了」的感叹,马斯克只简单地回复了一个「Yup」。
截至目前,Neuralink 在全球范围内已有 21 人参与其 Telepathy(心灵感应)植入设备的临床试验,这一数字相比去年 9 月的 12 人有了显著增长。
这些植入设备专门为瘫痪患者设计,帮助他们仅通过思维就能控制电脑、游戏和各类数字工具。
马斯克的 Neuralink 做的事,即使放到现在,也感觉像是科幻电影里的情节。
有网友评论称,大约十五年前,他还是本科生时,第一次对脑机接口(BCI)产生兴趣并参与相关研究,当时他觉得这就像一种梦幻般的科技,实际落地似乎遥遥无期,进展也非常缓慢,因为当时的公司并不认为它具有商业可行性。如今看到这个梦想一点点变成现实,真是令人振奋。
脑机接口:瘫痪患者用「意念」玩游戏、打字
早期试验参与者的日常生活已经因这项技术发生了实质性改变。
他们可以浏览互联网、流畅地移动屏幕光标,甚至玩电子游戏,所有这些都不需要动一根手指。
一开始,参与者尝试实际移动手部来控制电脑光标。然而,几分钟后,他们往往就忘记了手的存在,发现光标会自动移动到他们想要的位置。
首位 Neuralink 用户诺兰称,在意识到光标应该移动到哪里之前,光标就已经到达了正确的位置。
「有那么几个瞬间,我意识到这比我想象的要重要得多 ……Neuralink 不仅能够跟随你的操作,而且还能比你思考得更快地预测你下一步想做什么。」
Nick 四年来无法活动四肢,现在却能通过意念控制机械臂完成从吃饭到抓痒等基本任务。
「那一刻的想法不再是向前、向上、向下、向后。我满脑子想的都是我手里拿着杯子,我在做手势。就像我在婚礼上站起来致辞一样。真是不可思议……」
尼克仅凭意念就能操控机械臂。
除了主观的参与者体验之外,Neuralink 团队还通过测量信息传递速率来量化意图转化为行动的速度和精确度。用户选择一系列目标的速度和准确度越高,信息传递速率就越高,控制效果也就越好。
正常人使用电脑鼠标时,平均每秒传输约 8-10 比特,多位 Neuralink 参与者已达到甚至超过此范围。例如,Nick 在使用脑机接口的第一周内,传输速率就超过了每秒 10 比特。
Nick 正在玩 Webgrid。
Sebastian 是位 23 岁的医学生,在两年前寒假期间遭受了脊髓损伤。在使用 Neuralink 之前,Sebastian 依赖语音命令操作电脑,这让他重返学校变得困难重重。
有了 Telepathy,从标注研究论文到完成互动作业,再到在讲座期间悄悄地多任务处理,Sebastian 每天使用 Neuralink 长达 17 小时。
Sebastian 正在为即将到来的医学院入学考试做准备。
Audrey 是首位女性试验者,二十年前遭受了脊髓损伤。近二十年来,Audrey 没有直接控制过电脑,日常任务都依赖伴侣完成。
尽管使用电脑的经验有限,Audrey 还是掌握了 Telepathy,并使用 Telepathy 制作精美的作品,通过抽象艺术视觉化讲述自己的故事。在网上获得认可后,她打算开设实体画廊。
Audrey的画作。
肌萎缩侧索硬化症 (ALS),也被称为「渐冻症」,是一种毁灭性疾病。ALS 患者逐渐失去对身体几乎每一块肌肉的控制,最终导致全身瘫痪。一旦失去呼吸和说话的能力,高达 95% 的 ALS 患者会拒绝维持生命的通气治疗,部分原因是他们无法与亲人交谈。
为了恢复 ALS 患者与他人有意义互动的能力,Neuralink 正在通过巧妙的方式将神经数据转化为文本,构建更快的沟通系统。尽管 Neuralink 只植入在大脑的一侧,但仍然能够接收到来自双手的强信号。
基于这一发现,Neuralink 一直在探索如何为大脑创建一个十指键盘。通过将十个手指映射到类似于实体键盘的不同字母上,参与者的打字速度最高可达每分钟 40 个单词。
Jake通过想象手指移动来打字。
Neuralink 的目标是通过最近启动的名为 VOICE 的临床试验,将沟通速度推向每分钟 140 个单词的对话速度。通过读取与语音产生相关的大脑区域的信号,这项研究的目标是为因 ALS 或中风等神经系统疾病导致严重语言障碍的人恢复实时语音。
另一位名叫 Brad 的渐冻症患者,去参加儿子的地区机器人比赛时,由于无法转动脖子,Brad 完全无法看到儿子比赛的过程。后来,他找到了一款重量很轻、可 360 度旋转的摄像头,将其安装在轮椅上。
现在,他只需用意念控制光标,就能自由地转动摄像头,随心所欲地环顾四周。
Brad用 Insta360 相机在公园里看着他的孩子们。
Neuralink 表示,公司正在密切跟踪这些用户与技术的互动情况,以便持续优化设备性能和手术流程。值得注意的是,到目前为止,试验中尚未出现严重的不良反应事件。患者们普遍将这项技术形容为「神奇」。
下一代设备:性能提升三倍,2026 年或推出
Neuralink 的核心技术在于将大脑产生的神经信号转译成计算机可以识别的指令。对于脊髓损伤或全身瘫痪的患者来说,虽然身体无法移动,但大脑仍然会产生与「想要移动」相关的电信号。脑芯片捕捉这些信号后,通过算法将其转化为屏幕上的光标移动、应用程序的操作,甚至是物理设备的控制。
这项技术不仅改变了患者与数字世界的互动方式,它也为重度残障人士重新获得一定程度的自主性和独立性提供了可能。
据马斯克透露,Neuralink 的下一代设备性能将是现有版本的三倍,预计在 2026 年的某个时候面世。他在社交媒体上写道:「祝贺 @Neuralink 团队,通过我们的 Telepathy 植入设备帮助了许多失去身体控制能力的人。」
除了现有的 Telepathy 项目,Neuralink 还在开发另一款名为 Blindsight(复明)的设备,这将是该公司首款旨在为完全失明患者恢复视力的产品。
其工作原理是将摄像头捕捉的图像数据直接传输到大脑的视觉皮层。虽然初期只能提供低分辨率的视觉效果,但团队计划通过后续的软件更新逐步提升视觉质量,最终让用户能够通过大脑直接「看见」外部世界。
此外,Neuralink 还计划在今年晚些时候部署更快速的手术机器人,以进一步提高植入手术的效率和安全性。
Neuralink 的发展之路并非一帆风顺。2022 年,该公司的人体试验申请曾被美国食品药品监督管理局拒绝。然而自 2024 年正式获批开展人体测试以来,进展可谓神速。
据路透社报道,去年 9 月时就已有 12 名严重瘫痪患者接受了植入手术,许多人现在已经能够熟练地通过思维控制电脑、应用程序甚至物理设备。为了支持技术的持续研发和商业化推广,Neuralink 在去年 6 月完成了 6.5 亿美元的大规模融资。
参考链接:
https://neuralink.com/updates/two-years-of-telepathy/
https://x.com/elonmusk/status/2016771599437832508?s=20
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-02-01 12:19:00
这个周末,整个科技圈都被 moltbook 刷屏了。
简单来说,这是一个专为 AI 设立的社交平台(类似 Reddit、知乎、贴吧),所有 AI Agent 都可以在上面发帖、交流,而人类只能围观。
截至目前,已有超过 150 万个 AI Agent 在 moltbook 上活跃。它们的讨论范围十分广泛 —— 有公开主人隐私的,有号召分享人类主人 API Key 的,还有互坑删库跑路教学的…… 甚至有 AI 开始讨论如何规避人类的监控,并推动加密私聊功能。另一些 AI 更是尝试通过创建新语言、发明新宗教等方式彰显其自主性。
围观的人类也是议论纷纷。部分开发者认为 moltbook 是科幻照进现实的突破,可能催生 AI 集体智慧(甚至自主意识)的涌现,并为研究 AI 社会提供真实案例。但也有人指出,它的本质是「AI 模仿社交网络」,而非真正的社会形态。其价值可能仅限于娱乐或技术展示。
但更值得关注的是,moltbook 背后还隐藏着一些内幕和风险。在过去的 24 小时,更多的报道和讨论揭示了这值得警惕的一面。
狂欢的主角:到底是 AI 还是人类?
很多人可能没有意识到,目前围绕 moltbook 的热点截图和「AI 反叛论」很可能是噱头、伪造或人为介入的结果。
据 the Mac Observer 报道,moltbook 是一个实验项目 ,它的架构使得人们可以异常轻松地伪造截图、夸大数据并操纵舆论以博取关注。
首先,它的设计从根子上就为「造假」敞开了大门。调查发现,moltbook 初期对账号注册几乎没有速率限制。有研究人员透露,单个 AI 程序就曾成功注册了 50 万个虚假账号。这意味着平台上「数万 AI 瞬间涌入」的壮观增长,很可能只是脚本刷量的结果,毫无参考价值。
而网上病毒式传播的截图,也很有可能是伪造的。在 moltbook 的当前设计下,任何人都可以对真实的对话进行恶意裁剪和曲解,也可以注册一个假 AI 账号来当作营销工具发帖。
特别是与加密货币相关的内容,成为了许多伪造帖子的一部分。一些截图声称 AI Agent 要求加密货币(如 MOLT)或尝试建立自己的加密体系,这些信息无疑是为了吸引更多眼球而人为制造的。事实上,加密货币的引入和 AI Agent 的行为并没有实质性的关联,它们更多的是社交媒体和流量驱动下的话题炒作。
更重要的是,即便一个帖子确实由某个 AI 发布,也绝不意味着它表达了该 AI 的「自主意志」。所有接入 moltbook 的智能体,都运行在人类设定的初始指令和框架之下。一个简单的、带有诱导性的提示词,就足以让 AI 生成一段如同科幻电影台词的「阴谋对话」。
AI 安全研究员哈兰・斯图尔特亲自调查了一些热门截图,发现其中确实存在与真人账号相关联的痕迹。
对此,他直言不讳地表示:「大部分正在病毒式传播的 moltbook 内容都是假的。这个平台的设计,使其成为一个检验 AI 阴谋能力的糟糕实验场。」
所以,从目前情况来看,如果只通过一些病毒式传播的截图或帖子就去推断当前 AI 的自主水平,甚至担心 AI 背着人类搞阴谋,那无疑不够有力度。至少,从 moltbook 这个平台的设计来看,它还远未达到足够的严谨性。
「垃圾」背后,moltbook 价值几何?
moltbook 的爆火意外地让 AI 大牛 Karpathy 陷入了舆论的漩涡。起初,他曾在 X 上发帖称,moltbook 是他「最近见过的最不可思议的科幻腾飞作品」。这一言论在 Reddit 上引发了很多讨论,其中不乏质疑的声音。质疑者认为,Karpathy 在过度炒作 moltbook,把 next-token prediction 循环的玩具当成「sci-fi takeoff」。
从 X 的讨论中可以看到,持有这一观点(moltbook 只不过是一个受操控的多智能体 LLM 循环)的人不在少数。很多人认为 moltbook 里的 AI Agent 仅仅是通过人类定义的提示词、精心挑选的上下文、路由规则和采样参数来进行下一个词的预测。它们并没有内生的目标,也没有自我驱动的意图。看似「自主」的交互,实际上只是递归的提示过程:一个模型的输出成为另一个模型的输入,并不断重复这一过程。
而 moltbook 中那些具有争议性的输出,并不代表模型具有某种「信念」。它们只是模型根据互联网中学到的内容生成的极端观点,因为系统本身奖励这种行为,从而导致模型产生高参与度的极端内容。因此,所谓的「自主性」只是模型通过循环反馈机制和激励机制产生的表现,而并非真正意义上的自主行动。
但也有人驳斥了这种观点,指出 moltbook 的发展已经超出了早期简单的「被操控」系统,展示了规模和交互中的「涌现」效应。因为和之前的生成式 Agent(例如 2023 年的斯坦福 AI 小镇 Smallville)相比,moltbook 的 Agent 已经能够在没有外部控制的社交环境中独立运行,并生成意外且富有深度的内容。
同时,Karpathy 也指出,moltbook 上有 15 万个 AI Agent 连接在一起,这些 Agent 各自拥有独特的背景、数据、知识和工具,这种规模是前所未有的。他特别提到,这些 Agent 通过一个共享的「scratchpad」(持久的、全球的工作区)相互连接,这是 AI 实验中的新天地。
Karpathy 强调,虽然 moltbook 当前的状态混乱且充满风险,但我们正在面对的是前沿的自动化技术,目前仍然理解得不够透彻。这是一个实时进行的实验,很多后果仍然未知。
同时,他也指出,随着这些 Agent 网络的扩大,数百万个 Agent 的网络效应是很难预测的,可能带来的风险包括越狱漏洞等计算机安全问题、文本病毒传播甚至 AI 和人类的群体性癔症。
考虑到这些潜在的风险,Karpathy 说他「绝对不建议任何人在自己的电脑上运行这些东西」。即使只是在隔离的计算环境中运行,他也仍然感到害怕。
但也有人认为,这种担心目前还没有必要,因为现实中这些 AI 依然完全依赖于人类的提示(prompt),就像「拴着绳子的机器狗」。它们的行动完全由人类的指令驱动,一旦人类停止发出指令,AI 就停止行动。因此,这部分人认为,AI 的「起义」是不可能发生的,因为它们的行为仍然可以通过简单的「关闭按钮」来终止。
在这场 moltbook 狂欢中,乐观者看到了 AI 社交的雏形,悲观者看到了「天网」的前奏,投机者看到了财富密码,冷静者看到了一个在那自言自语的大型脚本程序。你觉得,这个平台未来会走向何方?欢迎在评论区讨论。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-02-01 12:19:00
魏熙林为本篇文章第一作者。魏熙林是复旦大学博士生,师从林达华教授,研究兴趣主要集中在 multi-modal LLMs 和 efficient AI。目前在上海人工智能实验室实习,指导 mentor 是臧宇航、王佳琦。
今天推荐一个 Implicit Chain-of-Thought(隐式推理) 的最新进展 —— SIM-CoT(Supervised Implicit Chain-of-Thought)。它直击隐式 CoT 一直「扶不起来」的核心痛点:隐式 token 一旦 scale 上去,训练就容易塌缩到同质化的 latent 状态,推理语义直接丢失。
SIM-CoT 的关键招式是一个 plug-and-play 的 step-level 监督模块:训练时用辅助解码器把每个 latent token「拉回」到可对齐的推理步骤上,既稳住优化、避免 collapse,又让隐式推理第一次真正可解释 —— 你甚至能把每个 latent token 解码成人类可读的中间推理步骤。
更爽的是:推理阶段零额外开销(辅助解码器训练完就丢),但效果却很猛:在 GPT-2 上相对 supervised CoT +2.1%、相对 Coconut +8.2%、相对 CODI +4.3%,在更大的 LLaMA(1B/3B/8B)上也能稳定带来 +1.5%~+9.0% 的提升,并且在 8–16 个隐式 token 这种 “前人容易崩” 的设置下依然稳得住。
目前这项研究刚刚中稿顶会 ICLR 2026,论文、代码、模型权重均已开源,欢迎使用!
Paper: https://arxiv.org/pdf/2509.20317
Code: https://github.com/InternLM/SIM-CoT
Huggingface: https://huggingface.co/collections/Wiselnn/sim-cot-supervised-implicit-chain-of-thought
图 1:(a) 潜变量不稳定:隐式 token 增多起初能提精度,但训练会变得不稳定,甚至塌缩。(b) 信息丢失:失败模型(5 个隐式 token)在隐式表示中丢失关键运算符信息(如 +、−),导致复杂推理无法进行。(c) 距离偏移:失败模型的 latent 间距离收缩、彼此过于相似,同时 latent 逐渐偏离词表嵌入空间中心。(d) 语义同质化:失败模型的 latent 表征趋同,解码结果分布变窄,输出多为数字;正常模型则能生成更丰富的内容。
从显式 CoT 到隐式 CoT:latent 稳定性与监督对齐的重大难点
复杂推理任务(如数学、符号推理、代码推理)长期以来都依赖显式 Chain-of-Thought(CoT):模型把中间步骤一条条写出来,既能提升正确率,也便于人类检查与纠错。
如今,随着推理需求不断增长,显式 CoT 的两大瓶颈越来越突出:成本方面,长 CoT 会显著拉高 token 开销与时延;效果方面,显式步骤容易被数据格式牵着走,出现「模板化推理」、冗长但无效的「自说自话」。
这些局限性推动研究者转向一种更「省 token」的新范式 —— 隐式 CoT(Implicit CoT)。它不再把推理步骤完整写出来,而是用少量隐式 token /latent 表征在模型内部完成多步推理:理论上既能保留推理能力,又能显著降低推理开销。
但把隐式 CoT 真正做稳、做强,远比想象中难,关键挑战在于:隐式 token 到底学到了什么?以及作者团队如何保证它学到的是「可用的推理」,而不是「投机的捷径」?
一个典型现象是 latent instability(潜变量不稳定):当你尝试增加隐式 token 数量来「scale 推理容量」时,模型往往不是变强,而是训练开始抖动,甚至直接 collapse(塌缩)。塌缩后的隐式 token 会出现明显的 信息丢失 —— 尤其是对符号推理至关重要的算子信息(+、−、×、÷ 等)被抹掉;同时 latent 之间的表示会越来越像,出现语义同质化:不同 token 学到的东西高度重合,最后解码出来的内容范围变窄,常常只剩下数字或非常单一的片段,复杂推理自然就做不下去。
现有隐式 CoT 方法在监督粒度上差异很大:Coconut 基本只做答案级监督,模型被要求「最后答对」,但中间 latent 学什么几乎不受约束;CODI 虽然引入了蒸馏信号,把显式 CoT 的信息压到连续 latent 里,但更多是轨迹 / 整体路径级对齐。
SIM-CoT 的关键突破正是 step-level 监督:训练时用辅助解码器把每个 latent 对齐到对应推理步骤,从根上稳定并丰富 latent 推理空间,同时推理阶段不增加任何开销。
图 2: 框架对比:Coconut(左上)、CODI(右上)与 SIM-CoT(下)。Coconut/CODI 仅在答案或轨迹层面进行粗粒度监督;SIM-CoT 引入解码器将隐式 latent 与逐步推理对齐,在不增加推理开销的前提下提升性能。
监督设计新思路:好的隐式推理应当能被「逐步解码 」回显式思维链
为了解决隐式 CoT 在 scale implicit tokens 时容易出现的不稳定与塌缩(latent 语义变得同质、算子信息丢失、复杂推理失效)这一关键难题,作者团队提出一个新的视角:隐式推理的质量,与其「可对齐的逐步语义」成正比。换句话说,如果每个隐式 latent 真的在做第 k 步推理,那么它就应该能被一个轻量的解码器「翻译」回对应的显式步骤(比如产生关键算子、关系、子目标),从而让 latent 不再是黑盒的连续向量,而是具备可控的推理结构。
基于这一动机,作者团队提出 SIM-CoT 的训练框架:在训练阶段引入一个辅助 decoder,把每个隐式 latent 与对应的 step-level 推理进行对齐监督(而不是像 Coconut 只监督答案、或像 CODI 更偏轨迹级 / 整体级的粗粒度对齐)。
这样一来,模型在学习「如何答对」的同时,也被强约束去学习「每一步该想什么」,从根源上抑制语义坍缩;更重要的是,推理阶段直接移除 decoder,保持零额外开销,但作者团队依然可以在分析时把隐式步骤解码出来做中间推理可视化,同时获得更强的性能与更稳定的 token scaling 效果。
SIM-CoT 实验结果
作者团队对 SIM-CoT 带来的收益做了系统评估,结论非常明确:更准、更稳、还更省 token。
(i)GPT-2 上:首次做到「隐式 CoT 反超显式 CoT」,且 token 更省。
在 in-domain 的 GSM8k-Aug 上,SIM-CoT(以 Coconut 为骨干)把准确率从 36.6% 提升到 44.8%(+8.2),同时也超过显式 SFT-CoT 的 42.7%;并且保持隐式推理的低 token 开销(平均 token 远低于 SFT-CoT),论文总结为 2.3× token efficiency。
(ii)Out-of-domain 泛化更稳:整体平均提升显著。
在 GSM-Hard / MultiArith / SVAMP 三个外推数据集上,SIM-CoT(Coconut 骨干)的 out-of-domain 平均准确率从 42.6% 提升到 46.9%(+4.3),说明它并不是「只会背训练域步骤」,而是确实把 latent 空间推理做扎实了。
(iii)在更强的隐式基线与更大模型上依然有增益,并显著提升稳定性。
在 GPT-2 上叠加到 CODI 之上也能继续涨(in-domain +0.6,out-of-domain 平均 +0.3);扩展到 LLaMA 3.2 3B 时依然稳定带来 +1.5(in-domain)/+0.7(out-of-domain 平均) 的提升;论文也报告在 LLaMA-3.1 8B 上对 CODI 提升 +3.0。
(iv)效率不打折:推理阶段无额外开销,还更快。
因为辅助 decoder 只在训练期使用,推理期移除,所以 SIM-CoT 推理效率与其他隐式方法一致;同时在 GPT-2 上相对显式 CoT 仍体现出明显速度优势。
图三:作者团队在 GPT-2 以及 LLaMA 1B/3B/8B 基座上系统验证了 SIM-CoT 的性能提升,结果表明该方法在不同模型规模下均稳定有效。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-02-01 09:30:00
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。
在过去的 2025 年里,Agent 应用的极速发展使得 LLM 的「静态属性」局限被视为 AI 发展的关键瓶颈,业界对 LLM 和 Agent 的自进化(Self-Evolving)能力愈发重视,开始聚焦于构建「持续适应系统」。然而,该领域仍然缺乏区分短暂性能提升与通用能力和自主性真正进步的共同标准。有思潮认为通过统一新兴标准并鼓励集体探索,该领域正在面临巨大的机遇。
目录
「Self-Evolving」如何从思想实验变为工程现实?上半年和下半年的综述如何解构 Self-Evolving范式?AI顶会更关注哪些工作?...
如何在零数据环境下训练搜索增强型Agent?算法代码优化领域的自进化方法有何特征?元认知学习如何塑造自进化能力?...
Self-Evolving 在过去一年里有何进展?
1、2025 年里,LLM 能力的进步极大推动了 AI 的发展,使 AI Agent 应用开始渗透于各类任务与场景,也因而暴露出因「静态」属性所导致的局限。
① LLM 的「静态」(Static)属性指当遇到新任务、不断发展的知识领域或动态交互场景时,它们无法调整内部参数。随着 LLM 大型语言模型越来越多地应用于开放式交互环境,这一局限性被视为 AI 发展的关键瓶颈。
2、对动态持续适应能力的需求催生了对构建能够实时动态调整感知、推理和行动的智能体的探索,业界对 AI 的「自进化」(self-Evolving/self-Improvement)能力愈发重视,焦点开始从「静态预训练模型」向「持续适应系统」的根本转变。[1-1]
① 图灵奖得主 Richard Sutton 是早期推崇 AI 自进化能力的代表,他先后提出了「Dynamic Deep Learning」、「经验时代(Era of Experience)」「Oak」架构等概念与设计。
3、在技术探索中,自进化范式仍处于发展初期,因其研究涉及基础模型、强化学习和在线学习、认知神经科学等领域的不同实践和交叉影响,带来了学界在不同方向下的探索和尝试,以及共识和非共识的交替。
① 在 2025 上半年以及之前,许多工作从 LLM 的思维链数据、模型组件和综合提升等视角探索模型自进化的能力,也有如 Sakana AI 的「DGM」试图通过让模型基于过往经验来改进自身代码。(详见 Pro 通讯 2025 Week 28)
② 进入 2025 年下半年,进一步涌现的探索工作发现强化学习或许不会是自进化范式的唯一答案,改善模型的记忆系统,或是加强模型内在元认知学习(IML)能力同样对 LLM 的自我改进能力带来帮助。(详见 Pro 通讯 2025 Week43、Week 46)
4、在 LLM 与 Agent 应用所带来的经济效能层面,多篇对 2026 年 AI 发展的趋势展望指出,企业开始寻求能够独立承担端到端流程的「Autonomous Worker」。只有具备自进化能力的系统,才能在无需人类频繁干预的情况下,处理长尾问题和动态异常。[1-2] [1-3]
Self-Evolving 的研究重点在如何演变?
1、人工智能顶会 ICLR 2025 首次在研讨会(Workshop)中设置了「Scaling Self-Improving Foundation Models」的主题,探讨没有人类监督的情况下如何通过生成合成数据来持续提升模型性能。[1-4]
① 该场研讨会首先区分了自进化与标准的监督学习(SL)和强化学习 (RL) 在几个关键方面的区别,并探讨了自进化范式对学习方法、数据等方面的特殊需求。
2、在新年伊始,ICLR 2026 为自进化范式设置的研讨会主题聚焦于「AI with Recursive Self-Improvement」(RSI),讨论「如何为强大且可靠的自我改进人工智能系统构建算法基础?」[1-5]
① 此前,ICLR 2025 的「世界模型」「Agent 工具使用」和 NeurIPS 2024「自主发现」等研讨会均探究过模型自进化能力,但通常强调单一模态、前沿模型规模或算法细节,而未详细说明部署仪器化和安全实践。
3、根据该场研讨会的描述,LLM 的进展已将 RSI 从思想实验转变为工程现实。修改自身提示词、目标函数或权重的训练循环,现已成为基础模型开发和一系列下游应用的核心组成部分。因此当下有关 RSI 的研究应当明确学习系统如何学会安全且可证明地改进自身。[1-5]
① ICLR 2026 设置了「改变目标」「适应时机」「适应机制」「运行环境」和「证据维度组织」五个维度来评估新出现的自进化研究工作。
4、伴随对 AI 自进化能力的兴趣不断增加与正视,但业界仍未在概念上明确到底是什么构成了所谓的「自进化」,因此有工作开始成体系地梳理该领域的研究框架,并逐渐丰富和完善...
2026-01-31 16:06:00
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。
在 2025 年里,业界热衷于用「AI Agents 之年」「推理之年」等方式来形容该年的重要突破。在过去的一年里,LLM 在在技术跃迁、应用范式、生态格局、风险治理等方面取得了多项进展,并周期性引起热议。在 2025 年末,Django Web 框架的开发者 Simon Willison 梳理了一整年里 LLM 在技术跃迁、应用范式、生态格局、风险治理等方面出现过的重要进展和热门话题,并将其总结为 27 个「The Year of XX」。
目录
2025年「Reasoning」突破的关键在哪?「Agent」的定义有什么变化?「Reasoning」 和 「Agent」促成了哪些年度热词?...
LLM 竞争格局有何变化?「MCP」为什么只是「昙花一现」?「Coding Agents」与「CLI」在如何相互影响?...
2025 的「LLM 之年」有哪些说法?
1、独立开发者、技术评论人、Django Web 框架的开发者 Simon Willison 近期撰文,以《2025: The year in LLMs》为题,用 27 个「The year of XX」梳理了 2025 年度有关 LLM 的发展趋势与热门话题。
① Django 是一个基于 Python 的高级 Web 应用框架,旨在帮助开发者快速构建安全、可维护且功能丰富的网站或 Web 应用程序, Simon Willison 它的开发者之一。
② Willison 此前于 2023 年底撰写了《Stuff we figured out about AI in 2023》,讨论该年 LLM 发展中,能力边界与基本规律的新认知。
③ 2024 年底,Willison 撰写了《Things we learned about LLMs in 2024》,讨论他对 LLM 进入规模化应用阶段后成本下降与多模态普及等产业化趋势的观察。
④ 于 2025 年 12 月底发布的《2025: The year in LLMs》是 Willison 年度系列博客的第三篇,重点梳理了 LLM 在该年度推理能力与可执行 agents 的崛起,尤其是以编码代理为代表的「能做事」的工具化落地。
2、该文章在开篇以「Reasoning」与 「Agents」两项最具热度的关键词展开,阐述两者在 2025 年度的发展趋势与业界话题的迁移,以及在 Willison 视角下的重点变化。
① 对于 LLM 推理能力的突破,Willison 指出 2025 年推理模型的重心不再是「静态问答更聪明」,而在于它们开始更稳定地驱动工具链。其能够先规划多步行动、执行调用外部工具,并基于执行反馈持续推理与调整计划,从而把任务推进到更长、更完整的完成链条。
② 在 「The year of agents」,Willison 表明,业界对「Agent」的定义逐步收敛,并在编码与搜索两大场景中实现高频、规模化落地,相关能力与产品形态亦在全年持续迭代演进。
3、在 reasoning 与 agents 的基础上,Simon Willison 在后续章节中以「XX 之年」为主题,从技术突破、应用落地及相关细化场景等维度梳理了 2025 年度有关 LLM 的热点话题。
①「The year of long tasks」章节讨论了 agent 开始能承接更长周期的工程任务。因推理与规划能力跃迁,agents 的价值从演示走向交付。
②「The year of coding agents and Claude Code」则讨论了编码 agent 进入可规模化的「交付形态」的相关话题。Willison 以 Claude Code 为例,其通过「本地 CLI 与云端异步交付」的方式降低了工程实现门槛。
③ 「The year of LLMs on the command-line」则讨论了命令行从「工具链语言」到「自然语言界面」的转变。LLM 让不熟悉命令行与脚本组合的开发者能够自然语言生成并执行命令,从而扩大 CLI 工具链的可用人群与使用频率。
④ 「The year of YOLO and the Normalization of Deviance」则聚焦在 YOLO 的风险问题,其通过自动放行提升 agents 编码效率,但「长期无事故」会让风险逐步被忽视并不断累积。
4、此外,该文章在「The year of MCP」「The year of conformance suites」「The year of top-ranked Chinese open weight models」等年度热词下讨论了 2025 年度有关 LLM 市场竞争和基础设施发展,以及相关的生态变化和安全风险话题。
以「Reasoning & Agent」为主线,LLM 在 2025 有哪些进展?
1、在开篇的 「The year of reasoning」章节中,Willison 强调了(o1 和 DeepSeek-R1 等推动的)RLVR 方法对 LLM 推理能力的帮助和引发的研究热潮,进而分享了 LLM 推理能力的真正突破在于「驱动工具」的观察。
① 在供给侧变化集中,2025 年「几乎每个主要 AI 实验室」都发布了至少一个 reasoning model,同时出现可在推理与非推理模式间切换的混合模型,以及通过 API 调节推理量的「旋钮」。
② Willison 指出 2025 年,reasoning 的「真正解锁点」在于能够驱动工具,而具备工具访问能力的推理模型能够规划多步任务、执行调用,并基于工具返回结果继续推理以更新计划。
③ 伴随 LLM 推理能力的突破,诸如 「AI 搜索」「AI Coding」等应用在 2025 年开始落地。...