2025-12-05 18:17:00
机器之心编辑部
随着大模型推理和 Agent 工具调用能力的快速发展,其通过反复搜索处理复杂信息需求的效果愈发受到业界关注。近日,第三方评测机构 SuperCLUE 发布 11 月 DeepSearch 评测报告,国产大模型 openPangu-R-72B 凭借在长链推理、复杂信息检索领域的卓越表现,在模型榜单中名列第一,体现了基于国产昇腾算力的大模型研发实力。
这款 MoE 架构模型,究竟藏着哪些技术秘密,能在激烈竞争中脱颖而出?
硬核技术底座:
MoE 架构下的效率与性能平衡术
openPangu-R-72B 为考虑效率和性能平衡,重新设计了模型底座架构。作为基于昇腾集群训练的 MoE(混合专家)模型,它采用 80 选 8 的专家选择机制,在 74B 总参数量的基础上,将激活参数量控制在 15B,既保留了大模型的复杂推理能力,又有效降低了计算开销。24T tokens 的训练数据与 128k 长序列处理能力,为其处理深度搜索任务中的长文本信息奠定了基础。
为实现稳定收敛与效果提升,openPangu 团队在预训练技术上完成了以下优化。
图. openPangu-R-72B 模型架构
1)注意力机制层面引入参数式 Sink Token 技术:有效缓解了极大激活值问题,不仅提升了训练过程的稳定性,也对后续量化更加亲和;
2)采用 K-Norm 与 Depth-Scaled Sandwich-Norm 组合的架构,其中 K-Norm 仅对 attention 的 key 施加 RMS Norm,在达到与 QK-Norm 相当稳定性的同时,降低计算开销,还保留了 Query 更灵活的表达能力。
3)注意力架构的优化兼顾了精度与效率:通过增加 Query 头数和注意力头维度,让模型能从更多角度捕获细粒度语义关系;引入 Partial RoPE 机制,仅对 Query 和 Key 中 1/3 维度应用位置编码。通过将 KV 组数量减半,在 Key 头维度增加的情况下,仍实现了 37.5% 的 KV cache 缩减,平衡了推理阶段的显存占用、速度与模型效果。
4)Adaptive Aux Free 负载优化技术:Aux free 升级版本,通过自适应调整各个专家负载 bias 的更新幅度,有效减少均衡震荡,让专家负载分布更均衡。
DeepSearch 专项突破:
三大优化破解复杂搜索难题
如果说技术底座是基础,那么针对深度搜索任务的后训练优化则是 openPangu-R-72B 登顶的关键。深度搜索作为大模型访问互联网获取深度信息的核心能力,其长链推理与工具调用水平直接决定模型的实用价值。openPangu-R-72B 通过后训练阶段进行长链难题合成、非索引信息处理、快慢思考融合三大策略,显著提升了模型 DeepSearch 能力。
图. openPangu-R-72B 模型深度搜索任务执行流程,该流程同时用于模型训练和评测
1)在长链 QA 难题合成方面,openPangu 团队在 DeepDiver-V2 和 WebExplorer 技术基础上,通过 query 条件模糊化将问题平均难度提升 10%,同时借鉴《Pushing Test-Time Scaling Limits of Deep Search with Asymmetric Verification》工作的思想,引入 verification agent,大幅提升用于训练问答对的准确性,让模型在复杂推理场景中 “见多识广”。
2)针对传统搜索引擎难以覆盖的非索引知识问答 —— 如官网附件中的财务数据、学术论文引文信息获取等场景,模型训练过程中注入了 “Planner 聚焦关键 URL+ URL_crawler 爬取网页 + Document_QA 识别下一步浏览链接” 的循环工作流,通过同一站点内的多跳浏览实现了深度信息搜集,突破了传统搜索引擎的信息边界。
3)步骤级快慢融合策略则让模型的 “思考” 更具效率。DeepSearch 的 ReACT 执行过程中,不同步骤的思考强度差异显著 ——Document_QA 需分析海量网页数据与表格,对推理精度要求更高;而普通工具调用步骤更侧重效率。为此,模型为不同步骤匹配不同思考模式:Document_QA 启用慢思考保障精度,其他步骤采用快思考提升速度,实现了精度与效率的平衡。
国产算力赋能:
openPangu 系列模型彰显集群优势
此次 SuperCLUE DeepSearch 评测登顶,不仅是 openPangu-R-72B 模型能力的体现,也彰显了国产算力与大模型研发深度融合的成效。作为基于昇腾集群训练的代表模型,openPangu-R-72B 证明了国产算力平台在支撑大参数量、高复杂度模型研发方面的坚实能力。
值得关注的是,openPangu-R-72B 的兄弟模型 openPangu-718B 在同期 SuperCLUE 通用榜单中斩获第二名,展现了该系列在不同任务场景下的全面实力。从深度搜索的 “单点突破” 到通用能力的 “全面开花”,openPangu 系列正以昇腾算力为根基,为国产大模型生态注做出更多贡献。
随着大模型在企业服务、学术研究、政务处理等领域的深度落地,深度搜索能力将成为模型实用化的核心竞争力。未来,随着 openPangu 系列模型的持续迭代,我们期待国产大模型在更多全球顶级评测中绽放光彩。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2025-12-05 18:17:00
「TalentAI」将持续带来人工智能相关在招职位信息,欢迎正在找工作与看新机会的朋友关注,也欢迎企业伙伴与我们联系合作。
任少卿,中国科学技术大学讲席教授、博士生导师,通用人工智能研究所(筹)负责人。
2011 年获中国科学技术大学信息安全专业学士学位,2016 年获中国科学技术大学 - 微软亚洲研究院联合培养电子科学与技术专业博士学位。2025 年 9 月加入中国科学技术大学担任二级教授、讲席教授。
任少卿教授在深度学习、计算机视觉及智能驾驶等领域做出了基础性、开创性贡献,其研究成果已成为驱动自动驾驶、工业检测、医疗影像、安防监控、卫星遥感等国计民生和经济发展关键领域的核心引擎。
截至 2025 年 11 月,其学术论文被引用超过 46 万次,位列全学科领域国内学者第一。荣获 2023 未来科学大奖 — 数学与计算机科学奖、2025 NeurIPS 时间检验奖、2025 Helmholtz Prize(ICCV 十年影响力奖)、2016 CVPR 最佳论文奖、ImageNet 竞赛与 MSCOCO 竞赛全球冠军等多项国际顶尖荣誉,AI 2000 全球人工智能学者总榜排名第三。
其中,荣获 NeurIPS 2025 时间检验奖的论文《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》堪称计算机视觉领域的里程碑之作。自 2015 年发表以来已被引用超过 98000 次,奠定了现代目标检测框架的核心范式。Faster R-CNN 是第一个用完全可学习的两阶段 pipeline(包括 RPN 和检测网络)取代 selective search 和手工设计候选框的方法,实现了极高精度与接近实时(5 FPS)检测的统一,使神经网络目标检测模型得以真正部署到真实世界应用中,深刻影响了后续十年视觉模型的发展方向。
更多信息请访问个人主页:http://faculty.ustc.edu.cn/sqren
中国科学技术大学通用人工智能研究所(筹),聚焦人工智能、 世界模型、具身智能、AI for Science、自动驾驶等前沿方向,深⼊开展引领性、原创性、颠覆性、前瞻性科学研究⼯作。在学科建设、科研突破、⼈才培养、产业应用、国际合作等方面形成一体化创新体系。
全球引才,名额充足,长期有效。
招募岗位:教授、研究员、副教授、博后、工程师、博士生、硕士生、本科实习生。
顶配资源,顶格待遇,顶尖成就,等你共创!
诚邀海内外优秀本科,硕士、博士研究生及博士后青年人才积极申请;全力支持海内外优秀青年学者申请海外优青、杰青等国家高层次人才项目。
工作地点可选:上海,合肥
联系方式:
微信号:sqrenLab
2025-12-05 12:03:00
机器之心编辑部
InfCode 正在定义 AI 编程的「工程时代」。
自「造词大神」Andrej Karpathy 提出「Vibe Coding」这个概念后,它的热度就居高不下。
只需一句提示词描述「感觉」和意图,AI 就能直接生成可运行的代码,这种近乎魔法的编程体验让一众开发者叹为观止。
输入提示词:write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate(编写一个 Python 代码,可视化单行道中交通信号灯的工作情况,车辆以随机速率驶入),AI 就能在几秒钟内生成一个完整的动画模拟程序,包括交通灯的红黄绿切换逻辑、车辆的随机生成机制、停车和通行的判断规则,甚至还配上了流畅的可视化界面。
但惊喜过后,问题也随之而来。Vibe Coding 虽然擅长快速原型开发和单脚本编写,但在面对企业级复杂工程时仍显得力不从心。受限于上下文窗口、推理深度以及 Agentic 模式缺失,它往往难以精准定位大型代码库中深埋的 Bug,也极易在处理跨文件系统级修改时引发连锁错误,特别是在 C++ 等类型语言常用的底层框架编程场景中。
现在,来自中国的初创团队词元无限给出了自己的答案。由清华姚班校友带队设计开发的编码智能体 InfCode,在 SWE-Bench Verified 和 Multi-SWE-bench-CPP 两项非常权威的 AI Coding 基准中双双登顶,力压一众编程智能体。
具体来说,InfCode 展现的不仅是单点技术突破。在 SWE-Bench Verified 上,它以 79.4% 的 Pass@1 得分拿下 SOTA,在 MultiSWEbench 的 C++ 子集上,更是以 25.58% 的解决率大幅领先 Claude 3.7 Sonnet 的 8.59% 和 DeepSeek V3 的 7.75%。
这些数字背后,是一套面向企业场景设计的多智能体体系。对于希望在企业场景引入 AI Coding 的决策者而言,这也许是 AI 从「单体提效」走向企业「组织进化」的新范式。
如果说 Vibe Coding 开启了 AI 编程的「感性时代」,那么 InfCode 正在定义 AI 编程的「工程时代」。
AI 编程进入智能体时代
人工智能正在改变软件开发范式。
传统的大模型只能生成代码片段,而新一代编码智能体(Coding Agent)强调自主性、全流程覆盖和工程实用性。它们不仅会写代码,还能分解任务、调用工具、运行测试、反复调试,甚至提交补丁。这些智能体在多个基准上接受评测,其中最具权威的是由普林斯顿大学等提出的 SWE‑Bench 基准,以及 OpenAI 于 2024 年发布的升级版 SWE‑Bench Verified。该基准来自真实 GitHub 项目,每个样本附带自然语言问题描述和完整的测试用例,要求智能体既要解决问题,又不能破坏其他功能。
SWE‑Bench Verified 仅包含 Python 项目,无法反映多语言生态的挑战。2025 年,字节跳动联合科研机构推出了 Multi‑SWE‑bench 数据集,覆盖 Java、TypeScript、JavaScript、Go、Rust、C 与 C++ 等七种语言,共计 1632 个经过人工验证的修复任务,由 68 名专家从 2456 个候选样本中精挑细选。
研究表明,C++ 项目通常需要一次修改 200 多行、涉及 7 个文件,这远难于 JavaScript 等高层语言;系统语言由于手动内存管理与复杂的编译体系使得 LLM 表现显著降低。对比官方报告,领先模型在 C++ 上的解决率往往不足 8%。
词元无限的突破:InfCode 智能体
词元无限团队开发的 InfCode 智能体系统,在这一赛道上取得了突破性成绩:
在 SWE‑Bench Verified 上,InfCode 以 Pass@1 79.4% 的得分刷新 SOTA(世界最佳)—— 远高于公开排行榜上 GPT‑5、Claude 等顶尖模型 70% 左右的成绩。
在 Multi‑SWE‑bench 的 C++ 子集(Multi‑SWE‑bench‑cpp)上达到 25.58% 的解决率,大幅领先于 Claude 3.7 Sonnet 的约 8.59%、DeepSeek V3 的 7.75% 以及 Qwen2.5‑72B‑Instruct 几乎为零的解决率。考虑到系统语言的巨大难度,这一成绩堪称惊艳。
多语言基准显示,系统语言(C、C++、Rust)在内存管理、模板机制和复杂编译链方面的难度远高于 Python、Java 等高级语言。Multi‑SWE‑bench 中,C++ 问题往往涉及跨文件、大规模修改,部分任务需要改动 200 多行代码。下表总结了 Multi‑SWE‑bench 各模型在 C++ 上的解决率:
在这样的背景下,InfCode 在 C++ 子集上取得 25.58% 的 Pass@1 解决率,体现了语义定位与语法分析相结合的优势。它不仅能准确定位问题,更能在复杂语法和大型项目中生成正确补丁,这对工业界具有重要价值。
这些成绩并不是偶然,而是来自一套精心设计的技术体系,词元团队将相关技术报告发表在 arXiv 平台上(https://arxiv.org/abs/2511.16004)。
根据该分析报告,InfCode 包含三大核心亮点。
超越 RAG:基于功能意图的复杂上下文定位
在真实的软件仓库中,真正困难的往往不是「写出补丁」,而是「先在海量代码中找到有问题的代码块」。SWE-Bench 的任务通常不提供堆栈追踪(StackTrace),智能体只能依靠自然语言描述(如搜索功能变慢)去推测问题发生的位置。传统基于向量相似度的 RAG(Retrieval-Augmented Generation)机制,往往只会检索到包含「search」关键词的注释或变量,这套机制在中小规模仓库上或许能够定位到问题位置,但在大型工程中容易停留在「字面相关」的片段附近 —— 例如命中带有 search 字样的工具函数、配置或包装层,而不是实际承载查询逻辑的实现位置(如 Manager::ExecuteQuery),本质原因在于它主要感知的是局部向量相似度,而没有显式理解「代码承载的具体功能语义」 及其 「在系统中的逻辑归属」这类功能意图。
为突破这一瓶颈,InfCode 提出了「代码意图分析(Code Intent Analysis)」机制。
该机制让智能体能够超越字面匹配,理解自然语言背后的「功能意图」,并将其智能映射到项目中的具体实现单元(函数或类)。这一过程融合了语义推理与架构理解,使模型能在无堆栈信息的条件下仍然精准地锁定问题上下文。
研究表明,在多语言基准(如 Multi-SWE-bench)中,传统 LLM 往往无法正确识别文件或函数位置(尤其在 C++、Rust 等系统级语言中)。InfCode 的语义意图映射结合 AST 层级分析,有效提升了跨语言、跨模块的定位成功率,让智能体在复杂工程中具备了「理解全局意图、直达根因代码」的能力。
增强工具:超越 Grep 的基于 AST 的结构化检索
找到问题的代码只是第一步,如何精准定位并修改它才是工程修复的关键。
传统的文本搜索工具(如 grep)在 C++ 等复杂语言中存在天然缺陷 —— 同一标识符可能同时是类名、成员函数或变量,导致结果噪声极高。
字节跳动团队在 Multi-SWE-bench 的研究中指出,C++ 与 Rust 项目通常涉及跨文件、大规模修改,这使得「语义感知检索」成为智能体系统的必需能力。
InfCode 自研了基于抽象语法树(AST)的结构化检索引擎。
它通过 Tree-Sitter 构建完整的语法树,为智能体提供 FindClass、FindFunction 等语法层 API。
例如:
FindClass (Search):只返回名为 Search 的类定义,自动忽略同名函数或变量;
FindFunctions (MyClass::search):仅匹配特定类的成员函数。
这种语法感知搜索(Syntax-Aware Search)的理念与开源工具 ast-grep 不谋而合 —— 它被称为「语法层的 grep/sed」,能通过 AST 模式快速定位与重写代码。
借助这种结构化检索,InfCode 的智能体不再「盲搜」,而是真正「理解」代码的层次结构,在复杂工程中实现更高精度的 bug 定位与安全修复。
多智能体生成:基于对抗式的代码补丁与测试补丁双智能体生成
修复能力的核心不在于「一次命中」,而在于反复试错、持续进化。
传统代码修复智能体多采用单智能体架构,无论是先生成测试补丁再生成修复代码,亦或是先生成修复代码再回测验证,这种单向的修复模式往往容易陷入「过拟合当前 Issue」的信息茧房。
InfCode 首创对抗式双智能体架构:
代码补丁生成器(Code Patch Generator)负责修改代码以通过当前测试集;
测试补丁生成器(Test Patch Generator)则负责生成更强的测试用例,捕捉遗漏的边界场景。
二者在一个闭环中交替迭代:
当代码补丁通过测试后,测试补丁生成器会自动分析潜在漏洞并扩展测试覆盖度;随后代码补丁生成器必须进一步修复代码以应对新的挑战。
这种「越测越强、越修越稳」的对抗式工作流,让补丁在鲁棒性与完备性上持续演化,最终达到可直接集成于生产仓库的工程级质量。
这一设计契合了当前代码智能体研究的发展趋势:高水平智能体不仅要会生成,更要会验证与自我改进。
正如近期研究结果,单轮生成模式已难以支撑复杂工程任务,迭代 - 验证 - 优化的闭环结构将成为下一代 Coding Agent 的核心范式。
工程化细节:生成与筛选范式
InfCode 的修复流程分为两阶段:生成(Generate) 与 筛选(Select)。
在生成阶段,系统并行启动多个独立容器,每个容器运行一条修复链路,允许模型查看代码库、运行测试、分析错误,并迭代生成候选补丁。最多经历五轮迭代,产生多样化的补丁组合。
筛选阶段,系统在真实构建和测试环境中重放每个补丁,除了验证测试通过与否,还考虑行为一致性、稳定性和副作用。最终选出的补丁不仅「跑通测试」,还具有更强的工程完整性与可维护性。这种广泛探索 + 精准筛选的策略使 InfCode 能产出质量更高的修复补丁,而非过拟合或脆弱的修改方案。
背后站着一支「创业天团」
技术突破的背后,是一支被业内称为「创业天团」的豪华阵容。词元无限的核心团队不仅拥有顶尖的技术实力,更难得的是将技术前瞻、产品化能力与商业化思维三者融为一体,这在当下竞争激烈的 AI Coding Agent 赛道中,构成难以复制的全链路优势。
团队领军人杨萍在字节跳动期间主导创立公司首个软件工程实验室。其研发的多智能体测试系统,广泛应用于字节多条核心产品线。由她从零开始孵化的内部 AI Coding 产品,也早已全面覆盖公司研发体系。在复杂真实场景中,「如何在超大规模组织中向 AI 要效能和结果」,是词元团队深刻的基因。此次创业,期望通过革命性的 Agentic 平台,赋能企业以自然语言构建、优化和演化软件系统,降低技术门槛,加速数字化进程,让创新不再受技术资源限制。
CTO 王伟来自清华姚班,在大模型与智能体领域深耕多年,具备扎实的算法与工程经验。加入词元无限之前,他曾作为国内知名具身机器人公司与大模型创业公司的技术合伙人,主导打造了多个落地效果突出的大模型与具身智能项目,此前亦带队在 SWE-Bench 曾斩获全球第二的成绩,再加上这次 InfCode 登顶,展现了其团队在算法创新上的世界级水准。
而商业化负责人李莹拥有十余年 AI 产业落地经验,作为 AI 领域连续创业者,她曾主导多段从 0 到 1 的业务孵化、规模化增长直至公司成功登陆资本市场的完整周期,更是在大模型 To B 领域主导完成了数亿元规模的项目落地,实现了多家央国企及世界 500 强客户的亿级项目签约与卓越交付。这种将技术价值转化为商业回报的能力,正是 AI 创业公司最稀缺的资源。
这个团队汇聚了来自字节、百度、微软等顶尖企业的精英,以及清华、北大、哥大、MIT 等世界名校的人才,构成了独特的「顶尖老将 + 新生代骨干」组合。多个重要岗位由 00 后领衔,不仅为团队注入了对前沿技术的敏锐度和创新活力,也打造了扁平化、拥抱变化的 AI 原生企业文化,这对于需要在快速迭代的 AI Agent 赛道保持领先至关重要。
此外,团队对 AI Coding 赛道有着清晰的认知,该领域的竞争已从单纯的「工具效能」提升,转向对软件工程全生命周期的重构,即 AI SWE。未来的赢家将是那些能提供端到端价值闭环的「数字员工」平台,而非简单的代码补全工具。团队正致力于实现「Coding + 细分行业」的深度融合,通过赋能垂直领域的「Agentic ISV」,构建从工具到平台再到生态的商业闭环。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2025-12-05 12:03:00
编辑:陈陈
在 Agentic AI 时代,模型不再是独来独往的学霸,而是开始学会组队、一起想问题。多智能体系统(MAS,multi-agent systems)的发展让 AI 世界从一个人苦想变成了多人头脑风暴。尤其是基于大语言模型的 MAS,如今已经被用在各种任务中。
不过,在这个组合里,AI 基本靠文本交流,最近有人开始思考:LLM 在大脑里(也就是潜在空间)想事情时,其实比说出来要丰富得多。
于是一些研究开始尝试让模型直接用隐藏层来表示想法,比如 (i) 用 Transformer 的隐藏表示来实现单模型的潜在链式思考推理, (ii) 使用 KV 缓存或层级嵌入在两个模型之间交换信息。
然而,一个能够同时统一潜在推理与潜在通信的全面模型协作框架仍未被探索出来。
为进一步推进这一方向,来自普林斯顿大学等机构的研究者提出:MAS 能否实现真正的纯潜在空间协作?
为回答这一问题,他们提出一种多智能体推理框架 LatentMAS,其将智能体之间的协作从传统的 token 空间转移到了模型的潜在空间。核心创新是:让所有智能体不再通过文本交流,而是在潜在空间中直接协作。
一直以来,传统 MAS 依赖自然语言沟通,各个 LLM 之间用文本交流思路。这种方法虽然可解释,但冗长、低效、信息易丢失。LatentMAS 则让智能体直接交换内部的隐藏层表示与 KV-cache 工作记忆,做到了:
高效的多步推理:在大幅减少 token 的情况下,实现更复杂的思考过程;
无需训练的潜在空间对齐机制,确保生成过程稳定可靠;
通用性强:可兼容任意 HuggingFace 模型,并可选择性地支持 vLLM 后端。
总体而言,LatentMAS 在多智能体系统中实现了更高的性能、更低的 token 使用量,以及显著的实际运行速度提升。
为了实证评估 LatentMAS 的有效性,本文在九个基准任务上进行了全面实验,这些任务涵盖数学与科学推理、常识理解和代码生成。
结果显示 LatentMAS 始终优于强大的单模型和基于文本的 MAS 基线:(i) 准确率最高提升 14.6%,(ii) 输出 token 使用量减少 70.8%-83.7%,(iii) 端到端推理速度加快 4×-4.3×。这些结果表明,潜在协作不仅提升了系统级推理质量,还在无需额外训练的情况下带来了显著的效率收益。
论文标题:Latent Collaboration in Multi-Agent Systems
论文地址:https://arxiv.org/pdf/2511.20639
GitHub 地址:https://github.com/Gen-Verse/LatentMAS
这篇文章也得到了很多人转发评论,可供大家参考。比如这位网友的观点很好的概括论文:
「在传统的多智能体系统中,我们通常让智能体 A 生成文本,再由智能体 B 读取并处理。这种文本瓶颈既浪费算力,又严重稀释语义信息。LatentMAS 带来了一种近乎心灵感应式的替代方案:智能体通过交换潜在思维来协作。
智能体 A 不再把推理结果解码成文本,而是将它的工作记忆,也就是注意力层中的 KV 缓存直接传给智能体 B。于是智能体 B 在启动时,仿佛已经加载了 A 的全部推理过程。
通过将第一个智能体生成的 KV 对直接注入第二个智能体的注意力机制中,第二个智能体会把前者的内部状态当作自己的提示,从而完全绕过离散的 token 化层。这种方法比基于文本的协作快 4.3 倍,并减少 80% 以上的 token 使用量。更重要的是,它无需昂贵的训练,只用简单的线性对齐就能让嵌入空间兼容。
智能体 A 的潜在思维被直接复制进智能体 B 的记忆之中。」
还有人认为这会终结基于文本的 AI:
方法介绍
LatentMAS 是一个端到端的潜在协作框架:当给定一个输入问题时,所有智能体的推理与交流都完全在潜在空间中进行,只有最终答案才会被解码为文本输出。其核心设计结合了智能体的内部潜在思维生成与跨智能体潜在工作记忆传递。
在每个智能体内部,推理通过自回归地生成最后一层隐藏表示来展开,从而无需显式解码即可捕捉模型持续进行的内部思考;
在智能体之间,信息通过存储在各层 KV 缓存中的共享潜在工作记忆进行交换,其中包含输入上下文以及新生成的潜在思维内容。
基于这些设计,LatentMAS 建立在三个基本原则之上,这些原则也通过全面的理论与实验分析得到了验证:
推理表达能力:隐藏表示天然地编码模型的连续思维,使得每一步潜在推理都能传递远比离散 token 更丰富的信息。
通信保真度:潜在工作记忆完整保留了每个模型的输入表示与潜在思维,从而实现跨智能体的无损信息传递。
协作复杂度:与 TextMAS 相比,LatentMAS 在协作表达能力更强的同时,其推理复杂度却显著更低。
前两个原则共同强调了 LatentMAS 的核心优势:它能够支持更丰富的潜在推理,并实现无损的潜在交流。第三个原则则从整体复杂度角度进一步说明:LatentMAS 在保持高表达能力的前提下,其计算复杂度远低于基于文本的 MAS。
该方法使系统中的 LLM 智能体能够:
(i)在潜在空间中生成具有超强表达能力的潜在思维;
(ii)在智能体交互过程中,以无损的方式保留并传递各自的潜在工作记忆;
(iii)在保持与传统 TextMAS 相同表达能力的同时,实现显著更低的计算复杂度。
实验
本文在九个基准上对 LatentMAS 进行了全面评估,这些基准覆盖通用任务与高强度推理任务两大类。
在模型上,本文采用 Qwen3 系列的三个模型:4B、8B 和 14B,用于构建不同规模的 LatentMAS。所有实验均在 8× NVIDIA A100-80G GPU 上完成。
表 1、表 2 和表 3 展示了 LatentMAS 整体表现。他们从三个互补维度进行评估:(i) 任务准确率、(ii) 系统吞吐量(总输出 token 数)、(iii) 端到端推理速度。
结果显示,在所有任务上,LatentMAS 相比单模型基线在顺序式与层级式 MAS 设置下分别平均提升 14.6% 和 13.3% 的准确率;相比文本式 MAS,在两种设置下分别额外提升 2.8% 与 4.6%。
在相同 MAS 架构下,LatentMAS 相比顺序式与层级式 TextMAS 平均分别实现 4× 与 4.3× 的推理加速。
此外,由于整个协作过程完全发生在潜在空间中,LatentMAS 相比 TextMAS 在顺序式与层级式设置下分别减少 70.8% 与 83.7% 的 token 使用量。
高效率潜在协作
LatentMAS 在理论上可实现远高于 TextMAS 的效率。本文进一步通过实证对 LatentMAS 与 TextMAS 的效率进行了验证。正如图 1 和图 4(左)所示,即使在 TextMAS 基线已经通过 vLLM 服务加速后,LatentMAS 依然能提供 2.6×–7× 的额外加速。
这种显著提升来源于:latent 推理只需较少的 latent steps,而文本推理则需要大量的 per-token 解码步骤。例如:在不到 50 个 latent steps 的情况下,LatentMAS 就能在像 AIME 24/25 这样高强度推理任务中达到甚至超过文本 MAS 的表现;而文本 MAS 通常需要超过 2 万个输出 token 来完成完整的文本 CoT 推理轨迹。
此外,如图 1 和图 4(右)所示,LatentMAS 相比 TextMAS 可减少 59.4%–87.9% 的 token 使用量,因为 LatentMAS 中的智能体通过将潜在工作记忆直接注入其他智能体的内部层来交流,而非依赖文本中转。
值得注意的是,LatentMAS 相比单模型推理仍能减少 15.0%–60.3% 的 token 使用量。这是因为,在 LatentMAS 中,输入问题由多个协作智能体分担,使得最终的智能体只需汇总前序的潜在思维并生成最终答案,因此所需输出文本显著减少。
最终,整个系统在使用更少 output tokens 的同时,反而获得了更高的准确率。
深入分析 LatentMAS
在这一部分,本文首先验证 LatentMAS 生成的潜在思维是否具有有意义且语义丰富的表达。为此,本文比较了 LatentMAS 新生成的最后一层隐藏向量与 TextMAS 逐 token 生成的响应嵌入分布。如图 5 所示:
LatentMAS 的最后一层嵌入与 TextMAS 的 token 嵌入分布区域几乎重叠,说明潜在思维编码的语义与对应的文本响应一致。
LatentMAS 的隐藏嵌入分布覆盖范围比 TextMAS 更广,表明潜在思维比离散 token 拥有更高的多样性和表达能力。
这些结果共同说明:潜在思维不仅能够捕捉对应文本的有效语义,还蕴含更丰富、更具表现力的内部表示。
为了确定 LatentMAS 的最佳 latent step 数量,本文在三个下游任务中逐步增加 latent step ,以观察深度影响。如图 8 所示,随着 latent steps 增加,下游性能普遍提升,说明额外的潜在思维提高了 AI 协作表达能力。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2025-12-05 12:03:00
在 Text-to-Video / Image-to-Video 技术突飞猛进的今天,我们已经习惯了这样一个常识:
视频生成的第一帧(First Frame)只是时间轴的起点,是后续动画的起始画面。
但你能想象吗?
最新研究发现:第一帧的真正角色完全不是「起点」。它其实是视频模型的「概念记忆体」(conceptual memory buffer), 所有后续画面引用的视觉实体,都被它默默储存在这一帧里。
这项工作来自 UMD、USC、MIT 的研究团队。
论文标题:First Frame Is the Place to Go for Video Content Customization
arXiv 地址:https://arxiv.org/pdf/2511.15700
项目主页:https://firstframego.github.io/
今天就带大家快速了解这一突破意味着什么。
本研究的出发点,源于该团队对视频生成模型中一个广泛存在但尚未被系统研究的现象的深入思考。
🔍 第一帧≠起点,
第一帧 = 大型内容缓存区(Memory Buffer)
论文的核心洞察非常大胆:
视频生成模型会自动把首帧中的角色、物体、纹理、布局等视觉实体,全部「记住」,并在后续帧中不断复用。
换句话说,不论你给多少参考物体,模型都会在第一帧悄悄把它们打包成一个「概念蓝图(blueprint)」。
📌 在论文的 Figure 2 中,研究团队用 Veo3、Sora2、Wan2.2 等视频模型测试发现:
若首帧出现多对象组合,在很少的情况下,通过使用特殊的转场提示词 < transition>,模型在后续帧里能自然融合它们,甚至能支持跨场景转场、保持角色属性一致。
但是这个神奇的转场提示词 < transition > 对于每个模型、每个要生成的视频都是不一样的,而且模型在转场融合多物体后常常会产生物体,场景一致性损失,或者物体丢失的问题。
这说明:
✔ 第一帧是模型「记忆」外来参考的地方。
❌ 但默认情况下,这种能力「不稳定、不可控」。
🌟FFGo:不改结构、不大规模微调,
只用 20–50 个例子
这样就能让任何预训练的视频模型变身强大的「参考图驱动视频定制系统」。
研究团队基于这个洞见提出了一套极其轻量的做法 : FFGo。
关键优势震撼整个行业:
✔ 不修改任何模型结构
✔ 不需要百万级训练数据
✔ 只需 20–50 个 carefully curated 的视频例子
✔ 几个小时的 LoRA 训练
✔ 就能实现 SOTA 级别的视频内容定制
这在现有方法中几乎是不可想象的。
对比
🎥 FFGo 实际能做什么?
论文第 1 页大图列出了 6 大场景:
机器人操作(Robot Manipulation)
自动驾驶模拟(Driving Simulation)
航拍 / 水下 / 无人机模拟(Aerial / Underwater)
多产品展示
影视制作
任意多角色组合视频生成
你只需:
给模型一张包含多个物体 / 角色的首帧,配一个文本 prompt , FFGo 就能让模型自动「记住」所有元素并生成交互视频,且画面一致性、物体身份保持、动作连贯都非常强,甚至支持多达 5 个参考实体同时融合(图 6), 而 VACE/SkyReels-A2 限制在 3 个以内,会直接漏物体。
🧠 FFGo 的技术亮点
1. 用 VLM 自动构建 20–50 条高质量训练集
用 Gemini-2.5 Pro 自动识别前景物体,用 SAM2 提取 RGBA mask, 自动生成视频文本描述,构建适配视频模型输入的训练样本,这大大降低了手工工作量。
2. 使用 Few-shot LoRA 激活模型「记忆机制」
研究发现:
模型天然具备融合多参考物体的能力,但默认难以「触发」。
一段特殊 prompt(如「ad23r2 the camera view suddenly changes」)能起到「转场信号」的作用。
LoRA 学到的不是新能力,而是「如何触发这些能力」。
3. 推理时只需丢掉前 4 帧(Wan2.2 的压缩帧)
视频真正的混合内容在第 5 帧之后开始。前 4 帧是压缩帧,直接舍弃即可。
🆚 和现有方法相比,FFGo 为什么这么强?
论文在图 5–7 做了大量对比实验:
✔ FFGo 能保持物体身份一致性(Identity Preservation)
✔ 能处理更多参考对象(5 个 vs 3 个)
✔ 能避免大模型微调带来的「灾难性遗忘」
✔ 输出画面更自然、更连贯
特别是在多物体场景和通用的多物体互动场景下 ,FFGo 的生成效果显著优于 VACE 和 SkyReels-A2。
🖼️ 当基础模型偶尔「成功」时,
它揭示了一个更深层的秘密
在研究 FFGo 的过程中,有一个特别关键的实验图示值得单独拿出来说,Figure 4。
这一页展示的是:
在偶尔的、极罕见的情况下,Wan2.2 原始 I2V 模型也能完成一次「完美」的任务:
多个参考物体没有消失
场景转场保持稳定
动作连贯、身份一致
与文本提示(例如 wingsuit 飞行者与 Cybertruck 贴合运动)高度匹配
如果只看这一组结果,你甚至会以为原始模型本身就具备稳定的多对象融合能力。
但事实恰恰相反。
🔍 这个图揭示出的核心真相是什么?
Figure 4 的意义,并不在于「基础模型表现很好」。
恰恰在于:
基础模型本来就「拥有」这种能力,只是大多数时候无法被稳定激活。
研究团队的洞察在这里被证实:
✔ 视频生成模型确实会把多个参考实体存进第一帧的内部记忆结构中
✔ 视频模型本身能执行「多对象 + 动作一致」的生成
✔ 但这种行为默认几乎不可控、不稳定、难复现
这就像模型体内藏着一块「隐藏 GPU」,偶尔会亮一下,但你完全不能指望它全天候工作。
🎯 FFGo 的作用:不是教会模型新能力,
而是让它「稳定发挥」
在 Figure 4 的对比中,FFGo 的结果与原始模型的「偶尔成功结果」几乎一致。
这说明:
FFGo 的 LoRA 不是在重写模型,而是在激活已有的潜在能力。
换句话说:
原始模型 = 有潜力,但无法持续发挥
FFGo = 让潜力变成稳定能力(且不破坏预训练知识)
论文中提到,FFGo 能保留原模型的生成质量,而不是像传统大规模微调那样牺牲泛化能力,没有任何微调可以媲美预训练的数据质量和学习效果。
🚀 为什么 Figure 4 对整个论文意义重大?
因为它证明了一件极具革命性的事:
→ 首帧本身就具备「概念记忆体」的角色
→ 视频模型天生可以做多对象融合
→ 关键只是缺乏一个「触发机制」
FFGo 做的就是:
用几十条样本
一个精心设计的转场标记(transition phrase)
Few-shot LoRA 把这种能力重新「开机」,并且让它可控、稳定、可靠。
这也是为什么:
FFGo 能用 20–50 个样例,把 SOTA 模型甩在身后。
📌 一个值得记住的结论
Figure 4 所传达的,本质上是一句话:
视频模型已经足够强,只是我们过去一直没有找到正确的用法。
而 FFGo 正是在教我们一件事:如何「正确使用」视频生成模型。
🧩 这篇论文的真正意义是什么?
如果用一句话概括:
它不是让模型学会新能力,而是教我们如何使用模型已经拥有但从未被正确利用的能力。
它提出了一个极具启发性的未来方向:
🔮 更聪明地使用模型,而不是更暴力地训练模型
🔮 用更少的数据、更轻的微调,获得更强的定制能力
🔮 把「首帧作为概念记忆体」变成视频生成的新范式
📌 最后总结
第一帧不是起点,而是模型的「记忆库」, 视频模型天然具备多对象融合能力。
FFGo 用极低成本把这种能力「唤醒」, 不改结构、不用大数据, 仅 20–50 个例子即可实现 SOTA 视频定制。
实验覆盖机器人、驾驶、影视等多场景, 用户研究中以 81.2% 票数大幅领先
这篇论文不只是一个技术突破,更像是打开了视频生成模型的「隐藏技能树」。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]