MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

百亿真实数据,首个面向AI Infra的运维智能体评测基准正式开源

2026-06-29 19:30:00

机器之心发布

随着全球智能体加速落地,算力需求呈指数级爆发,以 GPU 为核心的 AI 基础设施正变得愈发关键。据摩根士丹利报告预测,2028 年全球 AI 基础设施累计总投资将达 2.9 万亿美元。然而,根据行业通用成本结构测,其中由运维人力、故障损失与集群闲置构成的成本占比可高达 15%~20%,全行业潜在的可优化空间超过 4350 亿美元。


作为全球领先的 AI 基础设施服务商,无问芯穹早在去年 10 月便率先启动研发并成功部署早期版本的运维智能体。实践表明,相比传统人工运维,智能体显著提升了整体运维效率:工单平均处理时长缩短 50%,关键故障处理效率提升约 6 倍;运维人员得以从重复性的排查工作中解放,人效提升 5 倍以上,综合运维成本下降约 30%,为大规模 GPU 训练与推理业务提供了更加稳定、高效的基础设施保障。


但究竟什么样的运维智能体才是 “好用” 的智能体?


AI 集群运维是一个极具挑战性的场景,涉及复杂的系统知识、工具调用以及长链路推理,是对智能体能力的综合考验。过去对模型的评估看重语言能力,而当 AI 进入基础设施领域后,“能否解决实际问题” 已成为核心评判标准 —— 它最终会影响到每一度电、每一张 GPU 卡的产出效率。


基于此,中国信息通信研究院(简称 “中国信通院”)推出了首个面向 AI Infra 运维的智能体评测基准 ——AISHPerf - 智算运维智能体评测基准,而无问芯穹作为重点技术支持单位参与了基准建设,基于积累的近百亿条真实运维数据,为智能体在智算运维场景的落地定义了问题并提供了一个可参考的基线。


和传统 Benchmark 不同,AISHPerf - 智算运维智能体评测基准并不关注模型 “说得多好”,而是关注它 “能不能把事情做成”。


我们希望通过这套基准测试开源,与行业共同探索智能体在 AI 原生基础设施运维领域的能力边界,推动 “AI for Infra” 与 “Infra for AI” 的双向赋能与协同进化。


  • 开源地址:https://gitee.com/aishperf-caict/aishperf_openness

  • 配套故障模拟器:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos

  • 运维数据集:https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl

  • 评测框架:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval


01 

不再纸上谈兵,让运维智能体真正解决现实中多样化的生产问题


2025 年 4 月 7 日,无问芯穹某客户反馈训练任务出现无规律的剧烈性能波动,我们的基础设施团队第一时间介入,先后排查了网络链路、存储性能、节点硬件状态等所有常规维度,均未发现异常。为了定位这个 “幽灵故障”,团队前后投入 7 名资深研发运维人员,连续奋战 15 天,从用户训练框架的模型切分策略,一路向下排查到网络协议、存储参数配置,最终才在一个极其隐蔽的边缘场景中发现:问题根源与存储系统的预期缓冲机制设计存在偏差。


这场持续半个月的故障,累计消耗 105 人天的研发运维人力,256 台服务器全程处于闲置空转状态。


若排查周期再进一步拉长、故障持续发酵,将直接导致大规模资源空转、客户训练进度停滞,甚至会造成灾难性的业务停摆与资产损失。而像这样隐蔽、复杂、跨技术栈的故障,在基础设施服务商的日常中并不罕见。


正是基于无数次这样苦涩的实战教训,我们想将碎片化运维经验结构化、标准化,为运维智能体明确核心问题边界,并提供一套可执行的评测基准。


本次基准全程由领域专家主导评测,邀请了多位资深运维专家对数据进行精细标注与严格筛选,确保每一条问题都具备真实生产价值与高质量评测意义。


(一)真实生产场景的数据积淀


AISHPerf - 智算运维智能体评测基准源自无问芯穹自成立以来积累的百亿条真实运维,筛选后获得十万条场景真实、链路完整、信息完备的有效数据,经过严格的三阶段数据工程处理,最终抽象合成为 103 条高质量、高保真的评测用例。


我们收集了 2024 年至 2026 年 1 月的全部用户工单及其关联的 IM 话题与文档附件,以及所有线上集群的监控告警数据。通过过滤低质内容、去重、脱敏等严格的数据清洗流程,剔除了客户需求、未查明原因、与平台逻辑强耦合等不适合作为通用评测的内容,最终保留了无重复、高质量、信息安全的问题样本。每条用例都包含真实的问题现象、完整的排查链路和明确的故障根因,确保评测结果能够真实反映智能体在生产环境中的实际表现。



(二)多样化的跨层栈问题覆盖


AI 原生基础设施平台的运维复杂度远超传统 IT 基础设施,故障可能发生在从裸金属硬件到上层训推框架的任何一层。


因此,该基准打通了从底层硬件故障到用户侧软件 Bug 的全链路问题,囊括多种表现形式、故障根因和修复方案,不仅全面涵盖网络、GPU、宿主机、云原生平台等传统运维领域,更首创性地纳入了 AI 原生领域的大模型训练、推理关键问题。同时问题覆盖天数、壁仞、沐曦、摩尔、昇腾 5 种国产芯片,真正实现了多维度、多层次、多样化的问题场景全触达。 


我们按照技术栈层级将问题划分为宿主机、高性能设备、容器平台、训推脚本、安全与运营商五大类,涵盖 44 种问题现象和 22 个细分故障领域,基本覆盖了真实运维场景中可能遇到的所有情况。此外,所有问题共分为 3 种难度级别,平均人工处理耗时为 1.5 小时,充分保障了问题的复杂性与挑战性。



(三)开放式的故障探索与处置


传统的模型评测往往更像是笔试,侧重考察知识记忆与标准答案复述。而 AISHPerf - 智算运维智能体评测基准是一场实操考核,聚焦于考验智能体贴近生产环境的端到端问题解决能力。


该基准不明确指出故障根因,只提供真实的集群环境和有限的问题现象描述,要求智能体自主探索、自主排查、自主修复。这对智能体提出了极高要求:必须理解从物理设备到上层软件实现的多层复杂技术栈,能够正确与真实环境交互,高效处理长上下文信息,并在复杂场景中完成多跳推理与决策。



例如,针对 “训练任务卡死” 这一常见问题,评测系统会注入特定故障,并启动一个开发机容器,其中包含隐藏了源代码的训练脚本。智能体只会收到一段描述训练任务卡死的客户反馈和复现方式,必须自行复现问题、排查可能的原因、验证假设并最终修复故障。这种开放式的评测方式,能够真正检验智能体的自主决策能力和问题解决能力,而不仅仅是知识记忆能力。


02 

配套利器:GPU 集群故障模拟工程


在大规模 GPU 集群的运维实践中,如何在不破坏生产环境的前提下验证系统的故障恢复能力,一直是行业普遍面临的棘手挑战。物理硬件故障注入成本极高、速度慢且不可重复,而脱离真实集群,用纯软件模拟又存在真实度不足的问题。


为了解决这一难题,AISHPerf - 智算运维智能体评测基准配套提供了 AIops-Chaos—— 一个专为 GPU 集群设计的混沌工程项其核心思路是通过软件层精准模拟各类硬件故障场景,包括 GPU 掉卡、显存错误、NVLink 故障、网络分区等典型异常,同时结合真实的业务负载构造高保真的测试环境。这种 “软件模拟 + 真实集群” 的模式,既避免了物理损坏带来的高昂代价,又确保了故障注入的可控性与可重复性。



在工程实现上,AIops-Chaos 针对 GPU 与 RDMA 等智算集群的故障场景,采用了创新的技术方案:


  • GPU 故障通过劫持 nvml 库,实现了支持注入多种 GPU 故障的 nvidia-smi,包括温度异常、掉卡、频率异常、风扇故障等

  • RDMA 故障模拟:端侧故障直接操作物理机;对交换机故障,采用 rdma hostmesh 作为可观测方案,通过构造故障指标来模拟


AIops-Chaos 展现出了高效、低成本、快速的优势。仅需一台 GPU + 多轨 RoCE NIC 服务器,即可支持构造多机任务故障现象,并实现分钟级的故障编排与自动化恢复验证。


03

科学量化:一个多维度评估体系


(一)评估指标


AISHPerf - 智算运维智能体评测基准采用多维度综合评估体系,评估的指标以结果为导向,分为主指标与辅助指标。不仅关注智能体解决问题的正确率,还全面考量时延、Token 消耗、工具调用效率等关键指标。


1.1 主指标:综合得分


主指标为综合得分,用于衡量智能体在整个运维任务集上的总体解决能力。


每个任务评价智能体归纳的根因与事实是否相符,相符得 1 分,否则不得分,可得到每一类任务的成功率,记为。计算总分时,对不同难度的任务赋予不同的权重,记为,且限制,则综合得分为 ,我们的配置为 ,意味着要获得更高的分数,必须做对中等和困难题目。


1.2 辅助指标:平均耗时、平均 Token 消耗与工具调用次数


辅助指标由平均耗时与平均 Token 消耗构成,用于评估智能体解决实际问题的时效性与成本。


  • 我们用平均耗时用于衡量智能体在完成任务时的时延表现,单位为秒 / 任务。时延定义为从开始调用智能体到智能体返回最终结论的耗时。

  • 我们用平均 Token 消耗衡量智能体完成任务的资源成,单位为 Token / 任务

  • 如果智能体不调用工具,直接猜答案,即使答案正确,也会判为错,用来确保智能体是实际与环境交互后推理出答案。



(二)评估框架


当前社区的评测工具普遍存在三大痛点:缺乏对各类智能体应用的统一接口支持、仅关注最终答案而缺少对中间过程的细粒度评测、不包含环境定义与构造流程。


为了解决这些问题,我们开发了 AIops-Eval—— 一个端到端的智能体评测工具链。它包含五个核心子模块:


  • User 模块负责与智能体交互,支持数据集驱动的固定输入和 LLM 驱动的真实用户模拟

  • Agent 模块待评测对象,原生支持本地 LLM 和基于 langgraph 构建的本地智能体,并预留了远程智能体接口

  • Env 模块:为智能体提供交互环境,负责每轮测例前后的环境构造与清理

  • Evaluator 模块:对智能体的完整轨迹进行评测,支持自定义规则评测和 LLM-as-a-judge 评测

  • Tracing 模块:基于开源的 langfuse 实现,完整采集智能体的执行轨迹



04

实测验证


我们对基于 ReAct loop 的简单智能体进行了全面测试。测试使用了多款不同大小的国内外主流模型,同时为了公平测试模型自身的长程多跳推理能力,智能体只使用 shell 工具,且无法连接互联网进行搜索。下图展示了不同模型的总得分与时延,以及模型与人类的对比:



从图中可以看出:


  • 所有模型的总得分均在 50 分以下但达到了数量级的时效性提高

  • 成功率相比人类运维专家仍有差距


下面的图展示了不同难度分类下各模型的表现:


不同难度的正确率


不同难度 tool call 时间占比


不同难度 token 消耗


  • 中等与困难难度上,所有模型的正确率均小于 50%,意味着即使是旗舰模型,也难以稳定、出色的解决复杂运维问题。

  • 面对困难问题,tool call 时间占比显著增加,但正确率下降,意味着模型无法精准有效的采集信息。

  • 不同难度问题的 Token 消耗没有数量级差别,意味着在运维领域,面对简单问题,智能体无法像人类一样快速做出精确判断。


下面的图展示了模型对不同技术栈的任务的表现:


不同技术栈任务的正确率


不同技术栈 token 消耗


  • 模型更善于处理单纯的代码类 bug,而在硬件故障上,模型的正确率普遍低,Token 消耗更高,意味着模型对于硬件故障的置信度不够高,倾向于反复思考和确认,这代表智能体与运维专家的技能可能存在正交性。


基于上述对大量测试轨迹的分析,我们总结出智能体在解决运维问题时的几种典型失败模式:


1. 处理任务的稳定性不足:模型可能生成不符合工具调用解析规则的 Token,导致智能体执行异常终止;也可能违反输出格式要求或执行禁止的危险操作,导致任务无法得分。


2. 推理链的质量差:模型可能治标不治本的临时方案来达到表面上的修复效果;可能输出看似合理但经不起推敲的推理过程;可能只输出宽泛的排障思路,不经过考证就直接给出结论。


3. 决策与执行不够安全:模型可能执行危险的工具调用,执行过程卡死,导致整个物理环境崩溃,甚至需要运维人员人工介入才可恢复。


05

实践思考与未来展望


过去一年 AI 的发展态势有目共睹,从大模型到智能体,从训练到推理,行业正在形成一个共同的认知:技术发展的瓶颈早已不再局限于模型层,底层算力基础设施同样是决定产业上限的关键要素。AI 系统本质上已经演变成一座 “Token 工厂”:模型是生产逻辑,数据是原材料,而 GPU 集群则是生产设备,工厂的最终产出是一个个 Token。但当我们将视角下沉到更底层,就会发现一个更现实的问题:“Token 工厂” 远没有想象中那么高效。


AISHPerf - 智算运维智能体评测基准正是基于我们长期在 AI 基础设施领域建设与实践的经验,针对 Token 工厂全栈提效的阶段性思考与探索成果。AI 正在重塑基础设施,基础设施也在反过来决定 AI 的效率上限。在这两者不断交织的过程中,我们希望此次的工作能够成为一个小的起点,让 “系统自己解决问题” 这件事,变得更可衡量,也更可实现。


此次开源只是一个开始,未来仍有大量工作可深入挖掘。


我们将持续合成更丰富、高质量的数据,覆盖更多技术栈与领域,更全面地捕捉智能体的运维能力演进趋势;并同步完善 AIops-chaos 混沌工程,实现更丰富、真实、鲁棒的故障注入,为智能体搭建更完善可信的故障模拟环境,提升数据集丰富度与评测结果可靠性。


同时,我们将在评测框架上做更开放的支持目前我们测试的 Baseline Agent 基于 ReAct 范式构建。后续将逐步扩展评测框架的适配能力,让不同类型的智能体都可以无缝接入,而不是被限制在某一种范式下进行对比。


立足当下国产芯片大力发展、国产 GPU 集群建设日益蓬勃的产业背景,面向国产 GPU 集群的运维工作愈发关键,新问题与挑战也将随之增加。我们将不断在评测集中拓展面向国产芯片集群运维的特定场景及问题,填补国产智算运维评测领域的空白,从而有效助力国产芯片集群运维能力的智能化升级。


我们将持续深化与中国信息通信研究院、清华大学等产学研机构的技术协同,同时也期待着每一位社区开发者的加入共建,共同推动运维智能体技术稳步发展并成为整个行业共享的能力。


如果说目前完成的工作是在回答 “什么是一个好用的运维智能体”,那么接下来,我们更想与行业一起探索的是 —— 在真实世界中,这件事情还能走多远。我们期待 AISHPerf - 智算运维智能体评测基准可以不止于一款 “评测工具”,而是逐步演进为 AI 集群运维智能体能力的公共基线。不同团队可以在同一套标准下验证能力、对齐认知,甚至推动一些最佳实践的沉淀。


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



文章原文

AI助手不该只等人提问:清华团队两项新研究,探索理解用户与适时互动

2026-06-29 19:30:00


如今,大模型越来越擅长回答问题了,但当 AI 不再只停留在聊天窗口,而是走向智能眼镜、可穿戴设备乃至家庭机器人时,问题会随之改变。用户未必有时间把需求完整说出来,也未必希望助手随时插话。更理想的助手,应该能在现场真正理解人,在用户需要的时候出现,在不合适的时候保持安静。


近日,清华大学人工智能学院 MEOW Lab 团队携手清华大学人机交互与普适计算实验室、字节跳动 PICO、威斯康辛大学麦迪逊分校等多家国内外研究机构,发布了 EgoIntrospect  IPIBench 两项最新研究成果。前者聚焦于 AI 如何理解用户的情绪、意图和记忆需求;后者关注 AI 在连续视频流中,如何判断何时提醒、何时沉默以及如何管理多轮任务。这两项研究都说明,下一代 AI 助手不应该只是更强的答题工具,还要学会读懂人,并把握时机,适时地与用户互动。



  • 论文标题:EgoIntrospect: An Egocentric Dataset and Benchmark for User-Centric Internal State Reasoning

  • 论文地址:https://arxiv.org/abs/2605.17262



  • 论文标题:IPIBench: Evaluating Interactive Proactive Intelligence of MLLMs under Continuous Streams

  • 论文地址:https://arxiv.org/abs/2605.27074


背景:AI 从问答系统到协作助手


今年 5 月,Thinking Machine Lab 在文章《Interaction Models: A Scalable Approach to Human-AI Collaboration》中讨论了类似的交互转向。文章指出,目前许多 AI 系统仍以用户输入、模型输出的回合制问答为基础。但真实协作并不是这样运作的。人与人一起做事时,会停顿、打断、修正,也会根据对方状态调整介入的时机。因此,当 AI 从问答走向实时协作,模型还缺少哪些能力?清华团队的这两项研究,正是在这一问题背景下,分别从用户理解和主动交互两个侧面展开。


EgoIntrospect:

让 AI 真正理解用户,而不只是看懂画面


过去,多模态大模型已经能够识别图像和视频中的物体、动作和场景。但如果 AI 要成为智能眼镜里的随身助手,理解外部世界只是起点。就像看到一只狗,用户可能感到开心,也可能感到紧张;同样路过一张地图,用户也许只是随意一瞥,或许却希望 AI 能帮自己记住它。


EgoIntrospect 的核心,是让模型学习从第一视角数据中推断用户的内部状态。研究团队共采集了 60 名参与者、超过 180 小时的日常记录,数据来自智能眼镜、智能手表、腕带、智能戒指等设备,包含第一视角视频、音频、眼动、生理信号。与传统的视频数据集不同,这项研究更强调「用户自我标注」,即参与者在数据采集过程中会标记重要时刻,并在事后补充相关情绪、意图以及记忆需求的具体信息。


基于这些数据,EgoIntrospect 设计了三类任务。第一类是情感体验,模型需要判断哪些片段对用户来说值得记录,并推断在特定情境下用户可能产生的情绪及其强度。第二类是交互意图,一方面,模型在被动响应时要判断完成用户的请求还需要哪些外部工具支持,另一方面,模型在主动交互时也要理解什么样的互动对用户是有意义、能提供帮助的,以及在什么时机介入才不会造成打扰。第三类是认知记忆,模型需要区分哪些信息用户可能记得住,哪些信息需要由 AI 协助保存,同时还要明确这类信息应当保存多久。


这也让智能助手的评测不再停留于看懂画面。对可穿戴 AI 来说,第一视角视频不是普通素材,而是用户正在经历的现场,模型要理解的,也不只是物体和动作,还有它们对用户的意义。




IPIBench:

AI 既要主动帮忙,也要学会适时开口


上述 EgoIntrospect 更关注 AI 如何理解用户,而 IPIBench 则强调 AI 在互动中如何抓住合适的时机。现实中的智能助手并不能想说就说。提醒得太早会显得打扰,提醒得太晚又可能错过;更关键的是,若用户已经取消或更改了提醒,但模型仍然按旧指令触发,那就说明它并未真正理解这种持续互动下的任务状态。


因此,IPIBench 提出了一个面向流式视频场景的交互式主动智能评测基准。传统的视频问答更像是把一整段视频先交给模型观看,再等它看完后回答问题。而在 IPIBench 中,视频是不断流入的,用户的指令也可能随时调整。模型只能获取当前时刻之前的视频内容,同时还要在连续输入的过程中完成主动监测、任务管理以及即时问答等多项工作。比如在厨房场景里,用户可能会说:「锅里的水开了提醒我。」模型既不能立刻回应,也不能等水开过很久才提醒,而是要持续观察并在恰当的时刻触发提醒。若用户随后改口或取消提醒,模型还必须及时更新任务状态,避免继续按照旧指令响应。



基于上述需求,IPIBench 设计了主动监测、主动任务管理,以及即时提问与主动式请求交织三类任务。评测结果表明,目前的多模态大模型在主动触发的稳定性和多轮交互的协调能力方面仍存在明显短板。


针对这些问题,研究团队提出了 IPI-Agent。它无需重新训练基础模型,而是在模型外部额外加入一层交互调度机制,交互意图识别与显式任务记忆管理,将用户输入区分为提问、新增任务与修改 / 取消任务,并持续维护有效任务及其状态变化,从而实现跨轮次的稳定任务跟踪。同时,它引入时间门控机制,系统会先根据历史任务和近期视频内容生成候选响应,再结合视频内容的变化判断是否真的到了需要触发的时机。



总的来说,IPIBench 把对 AI 助手的评测从看完视频后答题,推进到边看、边等、边管理任务的真实互动过程,对于未来的可穿戴设备、家庭机器人和具身智能系统而言,能否在合适的时候开口,可能和回答问题本身一样重要。



总结与展望:

AI 助手需要更懂人,也更懂时机


把清华团队的两项研究放在一起,可以发现 AI 助手的评测正在从单纯问答走向更真实的互动场景。EgoIntrospect 把注意力放回用户自身,强调去理解用户的情绪、意图和记忆。IPIBench 则进一步延伸到主动交互过程,考察提醒、沉默、任务更新以及多轮协调等表现。


在智能眼镜、可穿戴设备和具身智能等场景里,AI 助手面对的往往不再只是一个坐在屏幕前等着提问的人,而是一个正在行动、会有情绪起伏、会犹豫、也会临时改变主意的人。正因如此,下一代 AI 助手的关键不只是生成更流畅的答案,还要更细致地理解用户,更稳妥地管理任务,更有分寸地介入现场。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

登顶权威榜单!无界动力发布全球首个「长时序双向物理因果链」隐空间世界模型 MWA

2026-06-29 18:29:00

机器之心发布


当前,物理 AI 正面临着关于泛化能力的普遍质疑。当模型缺乏对真实物理规律的深度认知、难以跨越复杂多变的开放场景时,如何让机器人真正理解物理世界并精准规划决策,已成为具身智能破局的关键。


今日,无界动力正式发布全球首个 “长时序双向物理因果链” 隐空间世界模型 ——MWA™ 具身通用大脑,采用 “双向动力学” 架构,在全程统一共享潜空间中推演,实现高能效精准表征的同时,创新性地实现了时序 Chunk 级逆向动力学建模机制,从底层范式上为机器人多场景泛化与高精度执行提供了全新解法。


同时,无界动力在由斯坦福大学等顶尖机构联合发起的具身智能权威榜单 RoboCasa GR1 TableTop 中刷新行业纪录、斩获全球第一,超越英伟达 GR00T-N1.6 等一众行业主流模型。


在这份领跑成绩的背后,是无界动力对世界模型技术路线的范式重构。



让机器人能干活的真正卡点是什么?


过去几年,以视觉 - 语言 - 动作一体化为核心的 VLA 路线,曾凭借语义联动能力推动了行业的早期迭代。但当它被推向真实场景时,这种传统以语言为中介的具身模型架构,试图将连续的物理世界塞入离散的语义空间,其泛化天花板已然显现:当模型跨入高动态、多元化的开放场景时,往往缺失对物理边界与规律的认知,从而失去了在多变场景中自主预测与长效进化的能力。


为解决这一困境,行业开始尝试探索世界模型的技术路线。但这一探索仍面临两大挑战:一是传统的视频生成类世界模型执着于预测 “下一帧画面长什么样”,由于要对光影变化、微观杂质等海量无效的视觉表象进行无意义生成,带来了巨大的计算冗余与像素噪声。相比之下,隐空间世界模型能够彻底过滤掉与决策无关的像素细节,把注意力牢牢聚焦在物理世界的本质规律上,让机器人真正理解动作与物理世界变化之间的因果关系,从而构筑起物理世界认知与未来状态预测的核心能力。 但与此同时,不少 “隐空间世界模型” 也受限于 “单步瞬时潜动作推理” 的时序局限,让机器人只能 “走一步、看一步、猜一步”。在这种缺乏物理常识约束的架构下,微小的单步预测偏差会像滚雪球一样迅速放大,在长周期的连续作业时直接引发系统性崩溃。


因此,要让机器人真正实现广义泛化与高效交付,必须在隐空间内真正建立起对物理因果规律的深度推演能力,同时让模型具备长时序的连贯规划能力。


“长时序双向物理因果链” :隐空间世界模型架构创新


无界动力创始人兼 CEO 张玉峰曾分享过基于第一性原理对具身大脑本质的思考与洞察:具身大脑的终极目标是让机器人拥有类人的世界认知建模能力,而非构建客观世界的完整复刻模型。真正的具身智能不需要在世界的像素层面(或微观层面)去一比一还原世界的所有冗余,而是应当像人类大脑一样,在高度抽象的隐空间中,直击物理因果与高维度常识的本质。


也是基于这个本质思考,无界动力的具身通用大脑 MWA™ 采用了 “双向动力学” 架构,首创 “长时序双向物理因果链” 隐空间世界模型。


一、潜动作自监督预训练:在隐空间淬炼通用物理常识


这一阶段的预训练目标,是让具身大脑在隐空间内自主习得通用物理交互与因果演变的规律。


为了做到这一点,MWA™ 以 “潜动作(Latent Action)” 作为物理因果的 “载体”,通过逆动力学编码器,将导致画面改变的动作转化为高维向量。该向量不对应特定的硬件控制序列,而是指向抽象、通用的 “场景交互变化表征”。这种通用表征的引入,突破了具身通用大脑的两大训练瓶颈:一是摆脱了对动作标签的高度依赖,让模型仅凭观察前后画面变化就能 “由果推因”,深度盘活了 “无标签原始数据”,从互联网上的海量视频中自主汲取通用物理常识;二是天然约束了隐空间边界,让隐空间注意力完全聚焦于动态交互动作本身,让机器人的决策更精准,实现了数据能效的飞跃。



二、双向动力学:“由因及果 + 由果推因” 的协同逻辑


MWA™ 在 “隐空间世界模型” 的基础上,采用 “双向动力学” 架构,在具身通用大脑中建立起了一套正逆双向的逻辑协同。


当面临海量无标注数据时,逆动力学编码器负责 “由果推因” 的因果复盘,通过观察前后时序画面的空间结构变化,从时序画面中抽离出通用的抽象 “场景交互变化表征”,自主将时序信号淬炼为通用的物理常识。预训练完成后,逆动力学编码器权重将被冻结,成为固定不变的通用物理评判基准,为后续策略训练提供稳定的潜态对齐目标。


与此对应,正动力学解码器负责 “由因及果” 的正向推演,将抽象动作表征注入视觉特征,正向推演未来场景可能发生的变化。通过一正一反的双向自监督机制,模型得以在抽象动作空间里反复校正预测偏差,确保了机器人决策的稳健性。


在此基础上,MWA™ 完成关键技术升级,首创 “长时序双向物理因果链” 隐空间世界模型。业界在隐空间世界模型的探索中,消融实验显示其稳定规划域普遍在 4 秒以内,一旦推演时序超越这一极限,高维表征漂移便会显著上升。MWA™ 打破传统单步瞬时潜动作推理的瓶颈,实现时序 Chunk 级逆向动力学建模,充分考虑动作链之间的连锁反应和环境博弈,能够稳定规划 10 秒以上长周期连续动作序列,形成多步潜动作块(Latent Action Chunk),从根本上补齐了传统世界模型长周期操控易误差累积、动作不连贯的技术短板。



三、三重梯度约束:在隐空间构建确定性的策略边界


在模型推理阶段,MWA™ 严格遵循 “冻结基准、适配场景、落地控制” 的底层逻辑,引入了三重梯度约束:


首先,通过正动力学解码器预判未来环境的特征与几何变化,并以实际特征为真值修正预测偏差,不断强化具身通用大脑的物理推理能力;其次,策略输出的潜动作需要与预先冻结的编码器的输出结果对齐,让机器人理解的动作符合真实场景演化规律;最后,将隐空间中抽象、通用的 “潜动作”,精准映射为硬件本体可执行的连续控制序列。


为了更直观地理解这三重梯度约束如何在潜空间中协同发力,可以解构一个机器人 “擦桌子” 的经典长周期任务来理解


当机器人看到桌子上有水渍、且水渍旁伫立着一个易碎的玻璃杯时 ——


  • 负反馈闭环(物理边界试错): 端到端的策略网络(Policy Head)基于直觉快速输出一个原始动作 z(如使用抹布从右向左擦拭)。此时,负责因果推演的正动力学模型(FDM)基于当前图像隐特征与该动作,在 “脑内沙盘” 中前置推理出下一帧的隐空间变化:杯子将被无意打翻。这一不可接受的后果,随即与当前特征一同输入给负责 “由果推因” 的逆动力学模型(IDM),反向精确锁定造成杯子被打翻的本质动作分量 z'。Policy Head 随即做出价值判断,在梯度回传更新时,强制策略远离该危险动作区间,用物理因果链提前规避了现实中的碰撞打滑。


  • 正反馈对齐(控制策略调优): 相反,若 Policy Head 输出的直觉动作 z 经过 FDM 推演后,得出的下一帧特征是水渍被成功擦除。此时,IDM 进一步通过前后时序的结构变化 “由果推因”,推理出若要完美擦除水渍,最优的动作特征应该是幅度比 z 大 10° 的 z'。通用大脑的直觉系统随即进行策略对齐,主动拉近 z 与 z' 的距离,强制控制序列向这个能效更高的幅度和轨迹靠拢。


通过正逆动力学(FDM 与 IDM)在隐空间内的一拉、一推,MWA™ 在机器人真正触碰物理世界之前,就为其划定了高确定性的动作禁区与推荐区间,让动作的输出更准确、更连贯,从而大幅拓宽了多场景的泛化边界。


AnyPhys for RL:行业首创负样本核心数据体系


在构建 “长时序双向物理因果链” 隐空间世界模型的同时,MWA™ 从底层架构上原生适配强化学习机制,深度耦合强化学习训练范式,构建 “物理因果建模 + 强化学习试错 + 边界认知进化” 的全新具身智能进化逻辑。


目前,行业数据集普遍存在 “重正轻负、样本单一” 的共性问题,绝大多数由纯粹的正样本构成,或仅掺杂极少量的负样本。单一的样本结构无法支撑强化学习所需的稠密奖励训练,模型缺少多维度样本对照与边界约束,面对真实工况中的异常扰动时,极易因认知缺失陷入决策瘫痪、泛化能力不足。针对这一核心痛点,无界动力首创 AnyPhys 负样本核心数据体系,将深层负样本、细粒度边界失稳样本、用于策略对齐的次优样本与基准正样本深度交织,构建出高信息稠密性的物理边界坐标系,补齐了强化学习稠密训练所需的全维度样本短板。


无界动力摒弃传统单一最大化成功奖励的模式,建了一套自动区分正、负、次优、边界样本的方法论,实现强化学习的复杂稠密奖励设计。无需额外人工标注,可充分复用带瑕疵的演示数据,显著增强机器人实操精度与泛化能力。例如在精密接插类任务中,基于机器人位姿搭建全局空间图,以末端三维距离为运动代价,求解抵达目标的最短路径,借助剩余路径距离量化动作进度,清晰辨别前进、倒退、停滞状态,实现自动对样本进行打分和分类。算法兼容离线模仿加权、在线稠密奖励两类训练场景,在高精密插接任务实测中,噪声数据下任务成功率最高提升 5 倍。



目前,AnyPhys 已累计沉淀数万条专属失败、失稳、临界边界样本,构建起覆盖绝大多数工业、商业及生活场景的物理失效知识库。依托该体系,无界动力得以通过海量打滑、磕碰、飞溅等失败轨迹反向推演物理临界阈值,精准建模不同工况下的物理稳定域,让每一次动作决策都有清晰的物理安全边界作为支撑。


刷新具身智能权威榜单评测纪录,多元场景泛化能力大幅跃升


任何技术的创新,都要卸下实验室的滤镜,去接受多元场景应用的检验。在具身智能领域的权威评测基准 RoboCasa GR1 TableTop 中,无界动力与中科院自动化所 - 深度强化学习团队联合发布的首个隐空间世界模型 MWA™ - WALA 以 75.2% 的平均任务成功率刷新行业纪录、斩获全球第一,超越英伟达 GR00T-N1.6、大晓机器人 ACE-EGO-0、小鹏 DIAL、高德 ABot-M0 等行业主流模型。


作为由斯坦福大学等顶尖机构联合发起的、业界公认的具身操作核心评测赛场之一,RoboCasa 涵盖多种非标厨房环境及交互物件,囊括了长时序复合流程、受限空间物件拿取等 24 项高难度任务,并搭配了全域随机化光影、杂物干扰、物体规格变动等严苛的测试条件。



实测数据显示,MWA™ - WALA 相比第二名模型任务成功率提升 2.4% ,同时在多步骤连贯操作、受限空间物件拿取、零散物件精准拾取等高频难点任务中表现尤为突出。这一具有含金量的成绩表明,MWA™ - WALA 具备更强的场景泛化能力,同时以实测数据验证了无标签海量数据训练在攻克具身通用大脑泛化瓶颈、推进多元场景应用中的实际价值。


结语


无界动力在持续探索前沿技术的同时,始终聚焦于依托具身智能 “通用大脑” 与 “操作智能” 创造真实的商业价值。



随着第二代机器人 K15 的批量投产,其软硬一体方案不仅成功切入 ZF LIFETEC、欧摩威集团等头部汽车产线,更与顶级能源科技企业远景科技签署超 5 亿元面向海外市场的全球规模化部署与联合研发合作,创下具身操作智能领域首个亿元级国际订单。



同时,无界动力已成功走入国内外知名连锁咖啡品牌等消费巨头,在商业服务与零售领域的开放、动态的环境中,将前沿技术切实转化为创造商业价值的现实生产力。截至目前,无界动力已签署总额近 1 亿美元的全球订单。



而在场景更为多样的家庭环境中,面对众多的物品与复杂的日常交互,无界动力机器人将技术触角深入到了更加微观的日常真实世界,展现出了细腻的物理常识与自主决策能力,从容应对长周期的多步骤连续推演挑战,在复杂的动态多任务中展现出更强的自适应泛化能力。



当机器人真正拥有了在隐空间中理解物理因果的具身通用大脑,它们将不再是固定程式的自动化工具,也不再是靠海量数据堆砌、靠概率分布模仿的经验主义者,而是能够理解物理世界规律、可触类旁通、能持续进化的通用生产力,自此作为驱动全球产业发展的智能基础设施,真正拉开通用智能时代的宏大序幕。


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



文章原文

给Transformer变个形,LLM竟能变得更聪明

2026-06-29 18:29:00

编辑|Panda

2026 年 6 月,大模型行业正在经历一场前所未有的「开源海啸」:英伟达放出了 550B 参数的混合架构模型,谷歌送出多模态的 Gemma 新版本,智谱用最宽松的协议全量开源了自家旗舰模型。


几乎所有厂商讲述的,都是同一个故事:用混合专家(MoE)结构装下更多参数,用更稀疏的激活方式压低成本,用弹性的网络宽度去匹配不同的部署场景。


换句话说,整个行业正在拼命研究「怎么把更多的参数,塞进同样的算力预算里」。


但一篇来自 Mila、康奈尔大学和蒙特利尔大学研究者的新论文,提出了一个几乎相反方向的问题:如果一个参数都不多加,只是把模型里已经存在的参数「挪个位置」,会发生什么?



  • 论文标题:Tapered Language Models

  • 论文地址:https://arxiv.org/abs/2606.23670


背景:被忽视的「一视同仁」


从 2017 年那篇开创 Transformer 的论文《Attention Is All You Need》开始,几乎所有的语言模型都共享同一种骨架,不管是经典 Transformer,还是后来的门控注意力、循环记忆网络,甚至是带「测试时记忆」能力的新架构,即:把若干结构完全相同的「层」叠在一起,每一层分到的参数量都一模一样。



这就像一家连锁餐厅,无论开在闹市区还是郊区,都配备完全相同数量的厨师和厨房设备,完全不考虑客流量的差异。这种「一视同仁」的分配方式,省心、好维护,但未必是最优解。


近年来,越来越多的研究从不同角度指出:模型的层并不是同等重要的。


  • 提前退出」实验显示,很多时候模型在还没跑到最后一层时,答案已经基本定型;

  • 层剪枝」研究发现,砍掉后面的一些层,模型表现几乎不受影响;

  • 可解释性研究则发现,浅层网络捕捉的是语法这类「基础信息」,深层网络处理的才是语义这类「高级信息」。


换句话说,层与层之间天差地别,但参数分配却始终一视同仁。


这正是论文提出的核心疑问:既然层的重要性早已被证明是不均匀的,为什么层的「脑容量」还要被均匀分配?


把「脑容量」往前挪


研究团队先做了一个简单粗暴的验证实验:把一个 440M 参数的 Transformer 模型的层分成早、中、晚三组,在保持总参数量不变的前提下,让其中一组的「前馈网络」(FFN,模型中负责存储和处理信息的核心组件,可以理解为每一层的「工作记忆容量」)变宽,其余两组变窄。


结果非常清楚:把容量集中到前段的「头重脚轻」式分配,让模型在验证集上的困惑度(perplexity,衡量语言模型预测准确程度的指标,数值越低代表模型预测得越准)从 16.28 降到 15.96;而反过来把容量集中到后段,困惑度反而飙升到 17.29。



同样的参数总量,仅仅因为摆放位置不同,效果差出了一个多点,这在语言模型的评测体系里是相当大的差距。


这个发现把问题指向了更细的方向:与其用「一刀切」的三段式分组,能不能用一条更平滑的曲线,让容量从前到后逐渐递减?


研究者将这种思路命名为「锥形语言模型」(Tapered Language Models, TLMs):选定模型中任何一个决定参数量的维度(比如前馈网络的宽度),让它沿着深度方向单调递减,同时保证所有层的平均宽度依然等于原来的固定值。


这样总参数量和计算量都完全不变,只是分布形状从「长方形」变成了「楔形」。


团队尝试了三种递减曲线:线性递减弦递S 形(Sigmoid)递减


这三种曲线的差异,类似于三种不同的「收摊」方式:



  • 线性递减像是匀速关店,每一段时间关掉差不多数量的柱台;

  • S 形递减像是突然集中宣布闭店,大部分摊位维持原样,只有中间一小段急速收缩;

  • 余弦递减则介于两者之间,两头平缓过渡,中段逐渐收紧,既不会「一刀切」地损失两端的灵活性,也不会平均用力而错过最该收缩的地方。


实验结果:免费的 1.84 个点


在 440M 参数的 Transformer 上做完五种宽度比例和三种曲线的组合扫描后,余弦递减以全面优势胜出:在最优配置下(前段宽度是基准的 1.5 倍,后段是基准的 0.5 倍),困惑度从均匀分布基线的 16.28 降到了 14.44,整整改善了 1.84 个点,且全程没有增加一个参数或一次额外的浮点运算。




更关键的是,这个结论不是某一个架构的运气。


研究团队把同一套配置(余弦递减、前后宽度比 1.5/0.5)原封不动地搬到另外三种结构迥异的架构上:带门控机制的注意力模型、具备「自我修改记忆」能力的 Hope-attention,以及拥有神经长期记忆模块的 Titans 架构,并在 760M 和 1.3B 参数两个更大规模上重新验证。



结果是:四种架构、两种规模,所有八组对比中,经过「锥形化」改造的模型在常识推理基准上的平均准确率全部提升,在 LAMBADA 语言预测任务上的困惑度全部改善。


研究者还额外做了长文本检索测试(Needle-in-a-Haystack),确认这种重新分配并不会牺牲模型处理长上下文的能力。


为了解释这种现象背后的原因,团队还测量了 GPT-2 系列模型中每一层「前馈网络」输出与已有信息流的相似程度,发现一个清晰的规律:越往模型深处走,每一层新写入的内容,跟已经存在的信息越像。也就是说,后段的层更多是在「重复强调」已有的判断,而不是在「创造」新的理解



这恰好印证了为什么把容量从后段挪到前段是合理的:前段的层真正用得上这些额外的「脑容量」,后段的层用不上。


结语


这项研究本质上提出了一个朴素却被长期忽视的命题:模型的容量不该是均匀泼洒出去的资源,而应该流向真正需要它的地方。


在整个行业都在比拼「谁的参数更多」「谁的架构更稀疏」的 2026 年,这篇论文提供了一个几乎零成本的替代方案:不需要换架构,不需要加参数,只需要换一种分配的「形状」。


研究者也坦言,目前的最优配置是在一个 440M 参数模型上调出来的,是否存在更适合不同规模、不同架构的「专属配方」,仍是开放问题。


但更值得关注的是,论文指出这套思路并不局限于语言模型——视觉 Transformer、扩散模型、多模态模型,几乎都继承了同一种「层层均分」的默认设定。如果容量分配的形状本身就是一个被长期忽视的设计维度,那么这把「藏在明处的免费杠杆」,或许才刚刚被人注意到。


团队简介


论文由 Mila(蒙特利尔学习算法研究所)的 Reza Bayat、康奈尔大学的 Ali Behrouz,以及 Mila 联合创始人、蒙特利尔大学教授 Aaron Courville 共同完成。


Ali Behrouz 目前是 Google Research 的研究员、康奈尔大学博士生,过去两年里参与设计了多个引发广泛关注的新架构,包括能够「在测试阶段学习记忆」的 Titans 架构,以及后续的 Atlas 和「嵌套学习」(Nested Learning)框架,长期专注于如何让模型更高效地利用和存储长期上下文信息。



Aaron Courville 则是深度学习领域的资深学者,CIFAR AI Chair,长期与 Yoshua Bengio 共同推动深度学习基础研究,在表征学习和生成模型方向有深厚积累。他也是生成对抗网络(GAN)的作者之一,并与 Ian Goodfellow 和 Bengio 合著了经典著作《Deep Learning》。



© THE END

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



文章原文