MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

1100多个模型殊途同归,指向一个「通用子空间」,柏拉图又赢一回?

2025-12-14 12:50:00

机器之心报道

编辑:张倩


模型架构的重要性可能远超我们之前的认知。


最近,约翰斯・霍普金斯大学的一项研究发现:1100 多个不同的神经网络,即使在完全不同的数据集上训练、用不同的初始化和超参数,最终学到的权重都会收敛到一个共享的低维子空间。


这似乎是说明:存在一个「先验的」数学结构,所有神经网络都在逼近它。训练不是在「创造」什么,而是在「发现」一个早已存在的几何形式。换句话说,神经网络「想学的东西」似乎高度一致,架构决定了它能学什么,比数据影响更大。



这一发现有助于解释很多「神秘」现象,比如为什么过参数化的模型(参数远多于训练样本)还能泛化?为什么不同初始化最终学到相似的表示?为什么 LoRA、权重共享这些技术能 work?如果神经网络确实在共享子空间内学习,这将为隐式正则化、可迁移性以及稀疏训练方法的有效性提供支持性解释,同时也为诸如高效合并、新的优化技术、更快更高效的学习和推理等应用开辟道路。



  • 论文标题:THE UNIVERSAL WEIGHT SUBSPACE HYPOTHESIS

  • 论文链接:https://www.arxiv.org/pdf/2512.05117


这篇论文在 Alphaxiv、X 等平台上吸引了很多关注,一度攀升到 Alphaxiv 榜一的位置。



有人说,柏拉图又赢了一回。(注:柏拉图的理念论认为:我们看到的具体事物(桌子、马、圆形)都只是「理念」(Forms/Ideas)的不完美投影。真正的、完美的圆存在于一个抽象的理念世界,现实中的圆只是对它的模仿。其核心主张是:抽象结构先于具体实例。)



也有人从中读出了一些令人担忧的信号:如果所有模型都收敛到同一个子空间,那意味着当前架构存在内在的天花板,再多的数据和算力也只是在同一个「盆地」里打转。



论文概览


在具体研究中,作者首先聚焦于 LoRA 适配器,因其易于训练且能大量收集,在 Mistral-7B 模型的约 500 个适配器中观察到了通用子空间的涌现。随后,研究扩展到完整权重空间,从约 500 个 Vision Transformer 和 50 个 LLaMA3-8B 模型中提取出相似的低秩通用子空间,这些模型各自使用不同数据集和初始化方式训练。



此前已有多条线索暗示这一现象:神经正切核理论表明,在无限宽度极限下,网络训练动态由一个与具体任务基本无关的核函数主导;机制可解释性研究在视觉网络的特定层中发现了反复出现的电路模式;彩票假说和模式连通性也指向可复用的低维结构;早在 2012 年就有人观察到,卷积网络第一层在各种视觉任务中都会学到类 Gabor 滤波器。但这些工作要么聚焦于表示层面,要么未涉及不同模型间参数性质的收敛。


这项研究的独特之处在于:首次在权重层面提供了具体证据和明确通用假设,为深度神经网络参数空间中 「通用性」的存在提供了最为严谨的实证证据。


尽管这种通用性的根本成因仍有待探索,但即便是初步理解也具有深远意义。共享子空间有望实现:大规模模型压缩(只需存储子空间系数而非完整权重)、在已学习子空间内快速适应新任务、对泛化边界和优化景观的理论洞察,以及通过减少训练和推理计算需求带来的环境效益。此外,这种几何通用性也为研究泛化、顿悟(grokking)、灾难性遗忘和数据效率等基本问题提供了新视角。


作者也坦承了若干开放问题:不同架构的通用子空间如何相互区别?能否通过显式设计架构来优化子空间的几何结构?更根本的是,如果所有网络都坍缩到同一子空间,它们就会继承共同的偏见、能力边界和失效模式 —— 这种多样性的缺失本身是否构成了一个根本瓶颈?是否应该开发专门用于打破这种收敛的方法?


方法与结果概览


作者证明,与架构相关、逐层分布的通用子空间在各类神经模型中持续涌现。无论模型是从头训练、完全微调还是通过低秩方法适配,对通用子空间假说的遵循都表现稳健,未见显著偏离。这一现象在不同的初始化策略、模态、数据格式和数据集内容之间保持不变。


值得注意的是,所提取子空间的精度与可用模型的数量和质量相关。基于此,作者推测每种架构内在地存在一个「理想」通用子空间,各个模型实例都在向其收敛。作者假设,更优的算法、更干净的数据和更有效的优化策略能使模型更接近这一理想状态。尽管本文未正式验证「理想通用子空间」假说,但作者认为这一子空间代表了当代反向传播训练的神经网络最稳定的配置,因此这一规则的例外情况可能为进一步的研究提供沃土。


分析方法


由于目前尚无方法能够比较不同架构模型的子空间,作者聚焦于在同一架构上训练的大量模型,对 LoRA 适配器以及 Transformer 和 CNN 的经典权重进行分析。除非另有说明,所有实验仅执行 1-2 阶的高阶奇异值分解(HOSVD),以确保方法在最简单情况下也能奏效。谱分析依赖高效的谱分解库,甚至可在 CPU 上运行,作者的所有分析和实验均在单块 Nvidia A5000 GPU 上完成。通过对数千个公开可用模型进行分析,作者无需任何训练成本即可提取通用子空间。


以下是作者所实现的算法:   



联合子空间分析结果


在 CNN 实验中,作者从随机初始化开始,在五个互不重叠的数据集(CIFAR-10、CIFAR-100、ImageNet、Oxford-IIIT Pets 和 EuroSAT)上训练 ResNet-50 进行图像分类。尽管理论分析表明少量模型可能导致对联合通用子空间的欠近似,但从头训练 CNN 的规模限制了可纳入研究的模型数量。


即便如此,对 ResNet-50 所有层的平均解释方差(图 2b)分析揭示了一个跨越这些不相交任务的独特共享低秩结构:大部分信息仅存在于 16 个(或更少)不同的子空间方向中。此外,将模型投影到这一子空间以获得低秩 ResNet-50(从而减少参数)后,其性能相对于完全微调仍具竞争力,进一步支持了联合子空间的存在和实用性(图 2a)。



为进行更大规模的真实世界实验,作者选择对 LoRA 模型进行子空间分析,因为它们在公共领域大量存在。鉴于 LoRA 模型明确捕获任务特定方向且与原始权重对齐较弱,它们是验证假说的良好替代。


在首个实验中,作者使用基于 Mistral-7B-Instruct-v0.2 训练的 500 个自然指令任务的 LoRA 模型,每个 LoRA 单独至少为 16 秩。分析结果(图 3)显示,所有 500 个模型的参数都可被一个有限的低秩子空间良好近似,且这一模式在所有层中一致存在。



为测试通用子空间的表达能力,作者通过将随机选择的已见(IID)和未见(OOD)任务的 LoRA 参数投影到通用子空间来解析重构它们,结果(图 4)表明通用子空间模型在两种情况下都表现稳健。作为对照,使用谱分解剩余分量(称为次级子空间)重做实验时,性能大幅落后。值得一提的是,通用子空间模型的内存效率提升了 19 倍,因为不再需要保存全部 500 个 LoRA。



接下来,作者进一步将分析扩展到使用 Stable Diffusion-XL 的文生图任务。从 HuggingFace 上公开可用的 LoRA 中提取通用子空间后,将单个 LoRA 投影到该子空间,生成的图像保持了视觉质量和风格(图 5)。



基于 CLIP 的评估显示,通用子空间在某些情况下甚至优于单个 LoRA,这可能归因于先前研究中观察到的去噪效应。



为测试将多个模型压缩到单一通用子空间的能力,作者将其方法与最先进的模型合并方法进行比较,包括 RegMean、Task Arithmetic、TIES、DARE-TIES、KnOTS-TIES 和 KnOTS-DARE-TIES。这些基线方法通常需要调整缩放系数、剪枝阈值或在验证集上进行迭代调优。


相比之下,通用子空间方法仅基于跨模型识别的共享低秩子空间的几何结构来解析计算合并系数,无需迭代调优或验证数据。由于子空间本质上是低秩的,合并后的模型参数显著少于任何单个模型。实验结果(表 2)表明,该方法在降低参数数量的同时取得了更高的平均准确率,实现了无需启发式剪枝或验证开销的可扩展、稳健的模型合并。



总而言之,这四组实验为通用子空间假说提供了强有力的实证支持,并展示了其在内存效率、模型合并、模型可复用性以及跨任务跨模态可扩展部署方面的实际优势。


不过,也有人提醒说,这篇论文虽然有价值,但结论需要经过更加严格的验证。首先,任务多样性不够真实,研究没有在真正异质的任务(如 MIDI 生成、英语文本、MNIST 像素生成)之间寻找共享子空间,所以发现的可能只是「任务子宇宙特定的子空间」而非真正的通用子空间;二是没有跨架构比较的方法,无法声称 ViT 和 LLaMA3 拥有相同子空间。



为什么通用子空间会涌现?


在论文中,作者对于通用子空间涌现的原因也给出了自己的推论。他们认为,若干理论因素可能促成了这些共享结构的出现。


首先,神经网络已知表现出对低频函数的谱偏好,产生特征值的多项式衰减,从而将学习动态集中到少数主导方向上。其次,现代架构施加了强烈的归纳偏置,约束了解空间:卷积结构天然偏好局部的、类 Gabor 模式,而注意力机制则优先处理反复出现的关系回路。第三,基于梯度的优化方法的普遍性 —— 在无限宽度极限下由与具体任务基本无关的核函数主导 —— 内在地偏好平滑解,将多样的学习轨迹引导向共享的几何流形。


如果这些假说成立,通用子空间很可能捕获了超越特定任务的基本计算模式,这或许能解释迁移学习的有效性,以及为何多样化的问题往往能从相似的架构改进中受益。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



谷歌创始人布林:当年发完Transformer论文,我们太不当回事了

2025-12-14 12:50:00

机器之心报道

机器之心编辑部


现在的大学生该选什么专业?未来一百年的大学会是什么样子?业界 AI 如此强势,学界还能做什么?谷歌在过去二十多年里做对了什么,又有哪些遗憾?


在斯坦福大学工程学院百年庆典的收官活动上,谷歌联合创始人谢尔盖・布林重返母校,与校长 Jonathan Levin 以及工程学院院长 Jennifer Widom 展开了一场对谈。



布林于 1993 年进入斯坦福工程学院,攻读计算机科学研究生。读研期间,他结识了拉里・佩奇。两人共同开发了一种搜索算法,并于 1998 年创办了谷歌。


回顾谷歌的来时路,布林坦言 8 年前提出 Transformer 时,他们没有予以足够的重视,而且因为担心聊天机器人说蠢话而害怕将其展示给世人。但他同时认为,他们这些年也做了很多正确的事情,比如投资研发 TPU 并建立规模庞大的数据中心。


对于未来,布林也表达了一些自己的看法,比如认为大学未来可能不应该再限制于某个地理位置,学界未来应该投身更具探索性质的研究,材料等科研方向可能被低估了……


以下是这场对话内容的摘录。


Google 早期做对了什么?

学术基因、敢碰难题


校长:Google 已经是一家市值 4 万亿美元的公司,业务范围极其广泛。你们这些年肯定做了很多正确的决定。有没有什么是你们在创建 Google 初期就做对的事情?


布林: 我觉得早期的话,Larry 一直非常有雄心。他现在也是。对你提出的每个计划,他几乎都会说「这不够有野心」。我们确实很早就有了非常宏大的使命宣言 —— 整合全球信息。我认为这是创办公司的一个很好的理念基础。


另外,我们创建了一家相当学术化的公司。我和 Larry 都是从博士项目出来的,当时很多创业公司是大学生创办的。我确实认为这会稍微改变你思考问题的方式。我们从早期就非常重视基础研发投入。


校长:我觉得有充分的理由说 Google 是过去 25 年全球最具创新力的公司。无论是产品创新,还是很多重大决策,比如收购 YouTube 发展视频业务、收购 DoubleClick 做广告、还有 Waymo。技术创新从一开始就很突出,现在做芯片也是。大公司保持高度创新是很难的,每个人都在这方面挣扎,但你们做到了。很多人认为你个人在这方面有很大影响。你是怎么思考培育创新文化的?


布林:部分原因就是敢于尝试。因为我们有学术根基,可能更倾向于尝试困难的事情。


进入过去十年左右,困难的事情变得越来越有价值。以 AI 为例,它所需的计算量、所需的高深数学,这些都是技术上深奥且具有挑战性的问题。命运的安排使得这些在当今世界变得重要。


曾经有一段时间,你可以做 pets.com,任何东西都可以加个.com。技术深度要求不高,懂点网络就行。现在我们招的人比我当时要合格得多。我当时算是偏数学的计算机专业,因为本科同时学了数学和计算机,这在我那届比较少见。但现在我们从斯坦福和其他顶级项目招的人,数学和计算机都很强,还有很多物理学家,因为物理学家必须做高深数学,而且他们的很多工作受限于计算能力,所以他们也需要计算技能。我觉得我们只是运气好,在那个方向上稍微早一点就确定了方向。


Transformer 论文发了

我们却没当回事


校长: 谈谈 AI 吧。每个人都在关注它。你回到 Google 从事这方面的工作。你们在很多方面都处于前沿,竞争非常激烈。投入 AI 基础设施的资本达到数千亿美元,单个公司层面都是这样。你怎么看当前 AI 领域的格局?


布林:我们确实在某些方面搞砸了 —— 我们投资不足,大约八年前发布 Transformer 论文时没有足够重视。我们没有太当回事,没有投资扩展计算规模。而且我们太害怕把它展示给用户,因为聊天机器人会说蠢话。OpenAI 抓住了机会,他们做得很好。这是非常聪明的洞察,而且是我们的人比如 Ilya 去那里做的这些事。


但我确实认为我们仍然受益于那段漫长的历史。我们在神经网络的研发上有很长的积累,可以追溯到 Google Brain。这也有点运气成分。雇到 Jeff Dean 不是运气 —— 能得到他我们很幸运 —— 但我们当时就有「深度技术很重要」的心态,所以我们雇了他。我们从 DEC(迪吉多)挖了很多人,因为他们当时有顶级研究实验室。Jeff 对神经网络很有热情,源于他大学时的实验。他 16 岁时就在做治疗第三世界疾病和研究神经网络之类的疯狂事情。他建立了整个团队。


当时在我负责的 Google X 部门,我让他做他想做的。他说「我们能区分猫和狗了」,我说「好吧,酷」。但你要信任你的技术人员。很快他们就开发出各种算法和神经网络,用于我们的一些搜索功能。然后有人提出了 Transformer,我们能做的事情越来越多。


所以我们有基础,有研发积累。确实有几年投资不足,没有足够重视。但我们当时也开发了芯片,TPU 大概有 12 年历史了。最初我们用 GPU,可能是最早使用 GPU 的公司之一,然后用 FPGA,然后开发自己的芯片,现在已经迭代了无数代。对深度技术的信任、获取更多计算能力、开发算法 —— 同时我们长期以来一直是计算的大投资者,数据中心规模很大。除了亚马逊 AWS,很少有公司有那种规模的数据中心、自己的半导体、深度学习算法等所有这些堆栈组件,能够在现代 AI 前沿竞争。


AI 会写代码了

还要学计算机吗?


校长:我们这里大约有 250 名学生,很多是本科生,相当多的人还没选专业,因为斯坦福给本科生很大的灵活性。几年前我们可以预测大量学生会选计算机科学作为专业。你是否建议他们继续选计算机科学?


布林:我选计算机科学是因为我对它有热情,所以对我来说是很自然的选择。你可以说我也很幸运,因为我正好在一个如此具有变革性的领域。我不会因为 AI 现在编程能力还不错就不选计算机科学。AI 在很多事情上都相当不错。编程之所以受关注是因为它有很大的市场价值,所以很多人追求它。而且更好的编程能带来更好的 AI,所以像我们这样的公司非常重视它。我们大量使用它来编程,甚至用于算法创意。


所以我不会因为 AI 擅长编程就转去学比较文学。说实话,AI 在比较文学方面可能更强。我无意冒犯比较文学专业的学生,但当 AI 写代码时,有时候会犯相当严重的错误。而在比较文学论文里写错一句话不会有那么严重的后果。所以 AI 做一些创意性的事情其实更容易。


未来一百年

大学还会是现在这个样子吗?


校长:今年是工程学院的百年纪念。如果你是院长,要启动学院的第二个百年,你会怎么思考?


布林:我想我会重新思考大学意味着什么。我知道这听起来有点烦人 —— 这是 Larry 会说的那种话,我会对他很恼火。但我们有这个地理上集中的东西,有建筑,有豪华的报告厅。但现实是,现在信息传播非常快。很多大学已经上线了开放课程,任何人都可以上网学习,可以和 AI 聊天。


那么拥有一所大学意味着什么?如果你想最大化影响力,限制在地理位置可能不会那么有效。当然,湾区是个特殊的地方。但我不知道在未来一个世纪,工程学院和大学的概念是否还会和以前一样。人们到处移动,远程工作,跨地域协作。这有点矛盾,因为我们正试图让人们回到办公室,我确实认为他们在一起工作效果更好,但那是在特定规模下。如果你有一百人在那边,他们不一定要和另外一百人在同一个地方。


我越来越看到一些个人创造新事物,不管有没有学位。虽然我们雇了很多学术明星,但我们也雇了大量没有学士学位的人,他们就是在某个奇怪的角落自己摸索出来的。我不认为我能神奇地给你新配方,但我觉得这种形式不太可能是未来一百年的模式。


大公司基础研究这么强

学术界还能做什么?


学生提问 1:Google 很大程度上源自您在学术界完成的 PageRank 研究。而在今天,越来越多的创新由工业界主导,您是否仍然认为「从学术到产业」的这条路径依然重要?如果重要,又该如何去强化它?


布林:说实话,我可能只能回答一句:我也不太确定。


我读研究生的时候,一个新想法从被提出,到真正具有商业价值,往往要经历几十年的时间。在这样的时间尺度下,学术研究是非常合理的:你有足够的自由,可以慢慢思考、申请经费、反复试验,一个问题可以研究二三十年,最后才慢慢「渗透」到产业里,可能是被大公司吸收,也可能变成一家创业公司。


但如果这个时间被大幅压缩呢?如果一个想法从出现到落地只需要几年,甚至更短,那这条路径是否还同样成立?我觉得这是一个值得重新思考的问题。


当然,有些事情仍然是有意义的。即便是在 AI 领域,我们也会持续关注斯坦福等高校的研究,偶尔招聘一些研究人员,或者展开合作。但很多情况下,你很难说这些工作一定 “必须” 在学术界先酝酿很长时间 —— 比如某种新的 attention 机制,可能在大学里实验两年,随后就被带进了工业界。但问题是,工业界本身也在做同样的事情。所以在这些方面,学术界的 “先行期” 未必有特别不可替代的优势。


也许在更激进、更底层的创新上,情况会不一样。比如全新的模型架构、全新的计算范式。这类方向,工业界虽然一旦决定投入就能扩展得非常快,但最初的探索,可能仍然更适合在学术环境中进行。


量子计算就是一个例子。这个想法在上世纪八十年代左右被提出,之后很长时间都停留在理论和实验室阶段。现在,一方面有很多公司在推进量子计算的工程化,另一方面,大学实验室仍在尝试各种完全不同的实现路径。这类方向正好处在学术和产业的边界上。


如果你提出了一种完全不同于主流路线的新方法 —— 比如既不是我们在做的超导量子比特,也不是很多初创公司在尝试的离子阱方案 —— 那它可能确实需要在大学里慢慢发酵几年。这类问题非常困难,也很冒险,放在学术环境中是合理的。但一旦你真的确信它是可行且有前景的,最终你大概率还是会把它推进到商业化阶段,以某种形式进入产业。所以,我很难给你一个明确、非黑即白的答案。


因为现在的头部科技公司,确实也在做大量基础研究,而且在 AI 领域,我们已经开始看到这些长期投入的回报。这意味着,学术与产业之间的分工比例正在发生变化。


但我仍然相信,有些研究 —— 那种需要十年甚至更久、以纯探索为主的研究 —— 产业界往往是不愿意承担的,因为它们的时间跨度实在太长,不符合「上市时间」的逻辑。而这些,可能仍然是学术界不可替代的价值所在。


Google Glass 的教训

别以为自己是下一个乔布斯


学生提问 2: 随着 AI 以前所未有的速度加速,像我这样年轻有抱负的创业者应该采取什么心态来避免重蹈覆辙?


布林:避免重蹈覆辙的心态?当你有很酷的新穿戴设备想法时,在做涉及跳伞和飞艇的炫酷特技之前,一定要把它完全打磨好。这是一个建议。


其实我喜欢我们当年在 Google Glass 上做的事情,但那是一个以前犯错的例子。我试图在它足够成熟之前过快商业化,在成本效益和消费者体验方面都没准备好。我有点操之过急,以为自己是下一个乔布斯,可以搞定这个东西。


我想说的是,每个人都以为自己是下一个乔布斯,我肯定犯过这个错误。但他是一个非常独特的人。所以我建议确保你的想法在足够长的时间里得到充分发展,然后才进入那个必须不断奔跑的阶段 —— 外部期望增加,开支增加,你必须在某个时间交付。你可能没有足够的时间做完所有需要做的事情。你会陷入一种期望滚雪球的状态,没有给自己足够的时间来处理。这是我会尽量避免的错误。


AI 的下一个前沿方向是什么?


学生提问 3:我们看到很多 AI 公司通过扩展数据和计算来改进大语言模型。一旦数据和计算都用尽了,你认为下一个方向是什么?会是新的架构,transformer 的替代品?还是更好的学习方法,比监督学习或强化学习更好的东西?


布林:你提到的这些方向 —— 新架构、新训练方法 —— 在我看来,其实早就已经比单纯扩算力、扩数据更重要了。


只是因为扩算力太显眼了:建数据中心、买芯片,再加上 OpenAI、Anthropic 关于 scaling law 的那些论文,很容易让人觉得一切进步都来自 scaling。但如果你仔细对比,会发现过去十年里,算法层面的进步,其实跑得比算力提升还快。


我读研时见过一张关于 N-body 问题的图 —— 就是引力系统里大量粒子相互作用的计算。从上世纪五十年代到九十年代,算力遵循摩尔定律暴涨,但真正让问题可解的,是算法改进,而且算法的进步幅度远远超过了算力增长。所以我认为,像我们这样的公司当然不会放弃站在算力前沿,但那更像是甜点。真正的主菜,还是算法上的突破。


院长:我也补充一句。对算力不够这件事,我们在大学里其实早就非常熟悉了。高校根本不可能拥有和工业界同量级的算力,差距非常明显。但这反而逼着我们去做另一类创新:在算力受限的情况下,如何把事情做好,如何用更少的资源做更多的事。这些研究我们已经做了很久,而且会持续做下去。


什么技术被严重低估了?


学生提问 4:你们认为哪种新兴技术的长期影响被严重低估了?


布林:显然我不能回答 AI—— 很难说它被低估,即便从某种意义上讲它可能仍然被低估,但它已经不算是「新兴」了。


很多人会提到量子计算,讨论它最终能带来什么。我个人也很支持量子计算相关的研究,但要说这是我最有把握的答案,其实也不是。这里面的不确定性太多了。


从计算理论上说,我们甚至都还不知道 P 是否不等于 NP。整个计算领域里,还有大量最基础的问题没有答案。而且量子算法通常只对非常特定、结构性很强的问题有效。所以这一方向我很看好,但要精准回答被低估,其实不太容易。


如果一定要说的话,我可能会把目光投向材料科学 —— 无论是 AI 还是量子计算,在材料领域的应用潜力都巨大。

如果我们能创造出性能全面提升的新材料,可能带来的变化几乎是无限的。


校长:我其实也在想材料科学这个方向,而且正因为你提到了被低估这个词。现在关于技术创新机会的讨论非常热烈,像聚变能源、量子计算这些方向,其实已经得到了相当多的关注,很难说它们被忽视了。AI 更不用说。但材料科学在我看来,确实是一个被低估的方向。此外,还有生物与健康领域 —— 尤其是分子科学层面的机会非常多,正在发生一场不小的革命,只是它们目前得到的关注度,明显不如 AI。


院长:我正好想说同样的事情。我能明显感觉到「聚光灯」在不同领域之间移动,而现在,聚光灯几乎全部打在了 AI 上。但在此之前,它曾经照在生物领域,而这束光不应该熄灭。合成生物学里正在发生很多非常令人兴奋的事情。所以我觉得,我们需要把这束聚光灯稍微拉宽一点。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]




SIGGRAPH Asia 2025|30FPS普通相机恢复200FPS细节,4D重建方案来了

2025-12-14 12:50:00


本文第一作者陈羽田,香港中文大学 MMLab 博士二年级在读,研究方向为三维重建与生成,导师为薛天帆教授。个人主页:https://yutian10.github.io


当古装剧中的长袍在武林高手凌空翻腾的瞬间扬起 0.01 秒的惊艳弧度,当 VR 玩家想伸手抓住对手 “空中定格” 的剑锋,当 TikTok 爆款视频里一滴牛奶皇冠般的溅落要被 360° 无死角重放 —— 如何用普通的摄像机,把瞬间即逝的高速世界 “冻结” 成可供反复拆解、传送与交互的数字化 4D 时空,成为 3D 视觉领域的一个难题。



然而,受限于硬件成本与数据传输带宽,目前绝大多数 4D 采集阵列的最高帧率仅约 30 FPS;相比之下,传统高速摄影通常需要 120 FPS 乃至更高。简单升级相机硬件不仅价格高昂,还会带来指数级增长的数据通量,难以在大规模部署中落地。另一条改变的思路是在重建阶段 “补帧”。近期,例如 4D 高斯溅射(4D Gaussian Splatting)等动态场景重建方法能在简单运动中通过稀疏时序输入合成连续帧,变相提升帧率,但面对布料摆动、高速旋转等非线性复杂运动,中间帧仍会出现运动不连续、伪影明显的问题。


于是,一个自然且关键的问题被提出:能否仅利用低帧率相机阵列,准确恢复出高质量的高速运动 4D 模型?正是在这一动机下,我们提出 “异步采集 + 视频扩散模型修复” 的软硬协同解决方案,为高速 4D 重建开辟了一条低成本、高质量的新路径,实现了仅利用 30 FPS 的普通相机,恢复出相当于 100-200 FPS 的高质量动态细节




  • 论文标题:4DSloMo: 4D Reconstruction for High Speed Scene 

  • with Asynchronous Capture

  • 项目主页:https://openimaginglab.github.io/4DSloMo

  • 论文:https://arxiv.org/pdf/2507.05163

  • 代码:https://github.com/OpenImagingLab/4DSloMo


硬件革新:异步捕捉,让相机 “错峰拍摄”


核心思路,是突破单个相机的速度瓶颈,通过让多个相机协同工作,实现一种 “接力式” 的拍摄方案。传统的捕捉方案是让相机阵列的所有相机在同一时刻拍照。而本文的异步捕捉 (Asynchronous Capture) 方案,则是人为地给不同相机或相机组设置一个微小的启动延迟。


传统同步方案(左),所有相机在同一时间点(如 t=0, t=0.04s)捕捉。我们的异步方案(右),通过错开相机 2 的启动时间,在 0s 和 0.04s 之间插入了一个新的捕捉点(t=0.02s),有效帧率直接翻倍。


想象一下,8 台 25 FPS 的相机,如果我们将它们分成 4 组,每组交替启动,就能将时间切片切得更细,实现 100 FPS 的有效捕捉帧率;如果分成 8 组,甚至能达到 200 FPS!整个过程无需任何额外的硬件成本,却在时间维度上获得了前所未有的信息密度。


软件革新:视频扩散模型,为 4D 重建 “精装修”


异步捕捉虽然解决了时间分辨率的问题,但也带来了一个新的挑战:在任何一个特定的时间点,参与拍摄的相机数量变少了,这会导致 “稀疏视角” 问题,从而在初步的 4D 重建结果中产生 “浮块” 等视觉伪影。为了解决这个问题,我们训练了一个专门用于修复 4D 重建伪影的视频扩散模型 (Artifact-fix Video Diffusion Model)。



该模型的核心功能是接收一个包含重建伪影的视频作为输入 ,并生成一个精修后的高质量视频作为输出。这里的关键思想是,作为输入的视频虽然在视觉上不完美,但它为扩散模型提供了修复所需的关键时空上下文 (Spatio-temporal Context)—— 即场景的正确空间结构和物体的核心运动信息。模型利用这些上下文作为引导,专注于去除伪影并补全细节。


为了实现这一功能,我们构建了一个针对性的训练数据集。我们通过在高质量的 4D 数据上模拟异步捕捉过程,生成包含典型伪影的降质视频 。随后,我们将这些降质视频与原始的真值视频 (Ground Truth) 配对,通过对一个大规模预训练视频模型进行微调 (Fine-tuning),使其学习从包含伪影的输入到清晰输出的映射关系。


与常见的图像扩散模型相比,我们使用视频模型的核心优势在于保证 “时间一致性 (Temporal Consistency)”。逐帧修复容易在连续帧之间引入纹理闪烁等不一致问题,而我们的视频模型能够利用时序先验,在去除伪影的同时,生成在时间维度上连贯、平滑的动态结果。


整体流程:一个 “重建 - 优化” 的迭代框架


我们的方法将硬件捕捉与 AI 算法相结合,构建了一个迭代式的优化框架:


1. 初步重建 (Initial Reconstruction):首先,利用异步捕捉的视频数据,重建一个初步的 4D 高斯模型。该模型能捕捉高速动态,但存在视觉伪影。

2. 生成伪真值 (Pseudo Ground Truth Generation):接着,使用初步模型渲染出包含伪影的视频。这些视频将作为我们视频扩散模型的条件输入。

3. 视频增强 (Video Enhancement):将渲染视频送入视频扩散模型。模型负责去除伪影并提升视频质量,输出增强后的视频。

4. 模型优化 (Model Optimization):最后,将增强后的高质量视频作为新的监督信号 (Supervision Signal),用于进一步优化 4D 高斯模型,从而显著提升最终的重建质量。


整体框架:异步视频 → 初步重建 → 视频增强 → 优化 4D 模型。


方法效果


在 DNA-Rendering 和 Neural3DV 两大公开数据集的测试中,我们的方法在峰值信噪比(PSNR)、结构相似性(SSIM)和感知质量(LPIPS)三项核心指标上,超越了包括 K-Planes, 4DGS, GS4D 在内的多种当前顶尖(SOTA)方法。





为了在真实世界中验证我们的想法,我们专门搭建了一套包含 12 个 25 FPS 相机的多视角捕捉系统。实验证明,即使在真实、复杂的异步捕捉环境下,我们的方法依然能够稳健地重建出高质量、时空一致的 4D 内容。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


干掉同传?谷歌把AI同传放入所有耳机,顺手发了个颠覆性的AI浏览器

2025-12-14 10:48:00

机器之心报道

机器之心编辑部


Google 正在加速将其 Gemini 模型的能力融入核心产品线。


Google 周五宣布,正式向 Google 翻译引入其 Gemini 模型的各项能力。此次更新不仅带来了能够通过耳机进行的实时语音翻译 Beta 版体验,还大幅提升了文本翻译的语境理解能力,并扩展了应用内的语言学习工具。


Google 还通过 Google Labs 推出了一款名为「Disco」的实验性浏览器,试图用 AI 重构网页浏览体验。


把所有耳机变成「同声传译」设备


谷歌宣布,Google Translate 正在推出一项基于 Gemini 模型的全新 Beta 功能,允许用户通过耳机收听实时翻译。



与以往仅限于 Pixel Buds 的独占功能不同,此次更新支持任何品牌的耳机。该功能旨在将佩戴耳机的用户设备变成一个实时的单向翻译工具。根据谷歌产品管理副总裁 Rose Yao 的介绍,这项功能不仅能翻译语言,还能保留说话者的语调、重音和节奏,从而让对话更加自然,也更容易区分不同的发言者。


无论是跨语言对话、在国外听讲座,还是观看外语影视作品,用户只需打开 App 点击「Live Translate」即可使用。


目前该 Beta 版本已在 Android 端的 Translate 应用中上线,支持超过 70 种语言。谷歌计划在 2026 年将该功能扩展至 iOS 平台及更多国家。


更懂「弦外之音」


除了语音功能,Google 还利用 Gemini 模型的高级能力重构了文本翻译体验。新的翻译引擎在处理俚语、成语或具有本地特色的表达时,能够更智能地解析上下文,而非进行生硬的逐字翻译。


Google 举例称,在翻译英语成语「stealing my thunder」(抢风头/抢功劳)时,Gemini 不会给出字面意思的翻译,而是根据语境捕捉其真实含义,生成更符合目标语言习惯的译文。


这一改进即日起在美国和印度推出,支持英语与近 20 种语言(包括中文、日语、德语、阿拉伯语和西班牙语)之间的互译。用户可通过 Android、iOS 应用及网页版体验。


另外,Google 还在进一步完善其翻译应用中的语言学习功能,使其更接近专业的语言学习软件(如 Duolingo)。



语言学习工具现已扩展至近 20 个新国家/地区。英语使用者现在可以练习德语和葡萄牙语。孟加拉语、简体中文、荷兰语、德语、印地语、意大利语、罗马尼亚语和瑞典语使用者可以练习英语。


新增了基于口语练习的改进型反馈机制,以及「连胜打卡(Streak)」功能,记录用户连续学习的天数,以激励用户保持学习习惯。


用 AI 生成即时「网页应用」


在翻译工具之外,谷歌 Chrome 团队在 Google Labs 推出了一个更具前瞻性的实验项目:Disco(意为 Discovery)。这是一款全新的浏览器,其核心概念是「GenTabs」(生成式标签页)。



什么是 GenTabs?不同于传统浏览器单纯展示网页,或目前主流 AI 浏览器仅提供文本摘要,Disco 试图通过 Gemini 3 模型将信息转化为「微型应用」。


当用户输入需求(例如「计划一次日本旅行」)时,Disco 不仅会打开相关的网页标签,还会根据这些网页的内容和用户的对话,自动生成一个包含地图、行程表和链接的交互式界面。



这是一个「浏览器中的浏览器」。GenTabs 是动态的,如果用户打开了新的相关网页,GenTabs 会自动抓取新信息并更新到交互界面中。


Chrome 团队负责人 Parisa Tabriz 强调,Disco 并非旨在取代 Chrome,也不是要「吃掉」网页流量。相反,它鼓励用户打开真实网页作为 AI 的「锚点」,形成用户浏览网页与 AI 整理信息之间的良性循环。


目前,Disco 作为一个实验性项目,已开放 macOS 版本的等待名单。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


8B模型任务击败GPT-5?阶跃星辰开源Deep Think新框架,小模型解锁百万Token测试时计算

2025-12-14 10:48:00


8B 模型在数学竞赛任务上超越 GPT-5!


阶跃星辰正式推出并行协同推理(PaCoRe, Parallel Coordinated Reasoning),这是一个全新的训练和推理框架,让大模型的能力不再受限于线性思维链的上下文窗口大小(Context Window)和处理速度,而是基于大规模并行协同的方式,让模型进行前所未有的广度和深度思考。


强大性能的 Gemini Deep Think 模式仅隐约透露其采用“并行思考”扩展测试时计算的思路;而 PaCoRe 以卓越的表现验证了大规模扩展测试时计算的有效性,并完整开源模型,训练数据,推理管线从而加速该领域的研究与创新。


基于该框架,小模型亦能解锁百万级 Token 测试时计算(Test-Time Compute)。


经过大规模、基于结果的强化学习(Outcome-based RL)训练,阶跃星辰研究团队的 PaCoRe-8B 模型掌握了综合发散性推理轨迹的能力。在 HMMT 2025 数学基准测试中,它取得了 94.5 的高分,一举超越了 GPT-5 的 93.2 分。这一成绩的取得,得益于模型在解决单个问题时,能够有效利用高达两百万 Token 的计算量。


长程推理是人类智力皇冠上的明珠。正如人类需要数月甚至数年的专注思考来攻克最棘手的难题,通用人工智能(AGI)也必须在推理阶段大幅扩展其计算规模,PaCoRe的研究进展标志着在这个方向上迈出了坚实的一步。



  • 论文链接:https://github.com/stepfun-ai/PaCoRe/blob/main/pacore_report.pdf

  • GitHub:https://github.com/stepfun-ai/PaCoRe

  • Hugging Face:https://huggingface.co/stepfun-ai/PaCoRe-8B


PaCoRe 框架


标准的思维链(Chain-of-Thought)推理与上下文容量是强耦合的:一旦窗口填满,推理就必须停止。PaCoRe 通过将推理的主要驱动力从 “串行深度” 转移到 “并行协同的广度”,成功解耦了这种关系。



图 1:并行协同推理(PaCoRe)的性能表现。

左图: 在 HMMT 2025 上,PaCoRe-8B 展示了惊人的测试时扩展(Test-Time Scaling)能力。通过增加并行轨迹(Parallel Trajectories)和协同轮次(Coordinated Rounds),性能稳步提升,最终超越了 GPT-5。右图: 在 LiveCodeBench 上,普通的 RLVR-8B 模型无法利用增加的测试时计算量,而 PaCoRe 有效地解锁了这种综合能力,随着计算量的增加带来了显著的性能提升。


推理机制 (Inference)


图 2:PaCoRe 的推理流程。

每一轮推理都会启动广泛的并行探索,将生成的轨迹压缩为精简的消息(Compacted Messages),并将这些消息与原始问题一起输入模型,以协同下一轮的推理。重复此过程 次,即可在遵守固定上下文限制的同时,产生数百万 Token 的有效测试时计算量(Effective TTC),最终的压缩消息即为系统的答案。


PaCoRe 的核心是一个按轮次运行的迭代消息传递架构。其工作流程如下:


1. 综合与并行探索 (Synthesis & Parallel Exploration): 在第 r 轮中,模型  接收来自上一轮的一组精简消息 。随后,它并行启动个独立的推理轨迹


2. 消息压缩 (Message Compaction): 为了不突破上下文窗口的限制,我们不能将所有原始轨迹反馈回模型。相反,我们应用一个压缩函数  去除的中间推导过程,仅保留最终结论,形成新的消息集


3. 迭代协同 (Iterative Coordination): 这些精简消息成为下一轮的上下文,使模型能够在多次迭代中修正理解、发现共识并纠正错误。为了确保收敛,最后一轮仅使用单一轨迹,生成最终的精简消息作为 PaCoRe 推理流水线的输出。


这种循环机制使得系统能够将 “有效测试时计算量(Effective TTC)”—— 即所有轨迹的 Token 总和 —— 扩展到远远超出模型物理上下文窗口限制的程度。


训练方法 (Training)


实现这一框架的主要挑战在于将模型从 简单聚合和 孤立推理 转移为主动合作。未经训练的推理模型常常在具有简单解结构的问题上使用诸如多数表决这样的简单规则,而在更加多样解的问题上,模型常常展现出 孤立推理 的现象:尽管在上下文中接收到了来自并行分支的丰富见解,但模型往往会忽略它们,试图从头开始重新解决问题。


为了克服这一问题,研究团队将综合阶段视为一个情景式强化学习环境。我们采用大规模、基于结果的 RL 来教会模型 推理综合 (Reasoning Synthesis) 能力:即审查并行分支、调和相互冲突的证据并提炼出统一解决方案的能力。


通过过滤训练数据,排除那些仅靠启发式规则就能解决的简单问题,我们迫使模型发展出真正的综合能力,将其从一个孤立的求解者转变为一个高效的协同者。


图 3:PaCoRe 训练动力学。

左图: 训练奖励(Reward)和响应长度(Response Length)稳步增加,证明了训练的稳定性和有效性。右图: 在 HMMT2025 和 LiveCodeBench (2408-2505) 上的评估。性能报告基于 PaCoRe 推理设置中的单轮协同推理,参数为


实验结果


研究团队将 PaCoRe-8B(初始化自基于 Qwen3-8B-Base 的内部后训练模型)与当前最具代表性的前沿推理模型进行了对比评估。


前沿级的性能表现


结果表明,并行协同机制使 8B 模型能够通过大规模扩展 TTC,获得远超标准解码限制的显著收益,在一些最复杂的数学和代码基准测试中超越了最先进的系统。


  • 数学 (HMMT2025): 在我们的高算力投入模式(High, )下,PaCoRe-8B 达到了 94.5% 的得分。这超过了领先的专有模型 GPT-5 的 93.2%。这一结果是通过将有效 TTC 扩展到每个问题约 200 万 Token 实现的。

  • 代码 (LiveCodeBench 2408-2505): 模型达到了 78.2%,与 GLM-4.6 和 Kimi-K2-Thinking 等大得多的前沿模型保持了竞争力。


“综合” 能力的涌现


图 4:训练过程中模型输出中 “综合” 相关语言特征的演变。

研究团队绘制了 PaCoRe 训练期间,数学和代码任务生成解决方案中 “交叉检查” 类词汇(包括 'reference', ' 参考 ', 'Ref ', 'ref ')的频率。训练在这两个领域都激发并放大了这种综合能力。值得注意的是,模型最初在代码任务上很少进行交叉检查,这佐证了图 1 中代码任务在 PaCoRe 训练前测试时扩展性差的现象。


研究团队通过追踪训练过程中 “交叉检查”(cross-checking)语言标记的普遍性来探究 PaCoRe 的底层机制。如上图所示,基于结果的强化学习推动了这种行为在两个领域的稳步上升。模型显式地学会了引用同伴的消息(Referencing peer messages),这种行为在未经 PaCoRe 训练的模型中几乎不存在。这证实了 RL 根本性地改变了推理动态,使模型能够有效地利用大规模并行计算。


训练数据的通用有效性


除了框架本身,研究团队还发现为 PaCoRe 构建的训练语料库是一种密度极高的学习资源。经验观察表明,将我们发布的数据集作为标准 RLVR 的主要基底,也能带来稳健的性能提升。这表明我们的问题集 —— 经过精心筛选以要求真正的综合能力 —— 是训练通用强推理模型的高效催化剂。


结论与未来方向


PaCoRe 建立了一条通往大规模测试时扩展(Test-Time Scaling)的无限路径。通过围绕 “并行协同” 构建推理架构并针对 “综合能力” 进行训练,研究团队以将测试时计算扩展到数百万 Token,从而允许较小的开放权重模型在复杂任务上超越专有的前沿系统。


阶跃星辰团队将发布模型权重、训练数据和推理代码,以加速社区的研究。


展望未来,团队将 PaCoRe 视为通向以下更大目标的基础性一步:


1. 扩展极限 (Scaling the Extremes): 计划将 PaCoRe 应用于更强大的基础模型,扩展任务领域,并进一步扩大广度(并行轨迹)和深度(协同轮次),以攻克目前被认为无法解决的挑战。


2. 提升 Token 智能密度 (Boosting Token Intelligence Density): 虽然目前通过 “量” 来扩展,但研究团队的目标是最大化每一个计算单元的效用。这包括通过更好的组织、合作和轨迹间的劳动分工,实现更高效的并行探索。


3. 涌现多智能体智能 (Emergent Multi-Agent Intelligence): 研究团队有兴趣探索综合策略(Synthesis Policy)与消息传递机制的联合训练,构建一个极简却丰富的协作多智能体学习环境,这将是研究涌现式沟通、自组织和群体智能的宝贵试验场。


4. 衔接预训练与后训练的 “衔尾蛇” (Ouroboros): 研究团队打算利用 PaCoRe 流程开发先进的合成数据生成技术,以反哺并改进当前的预训练和后训练过程,形成良性循环。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]