MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

这个扩散LLM太快了!没有「请稍后」,实测倍速于Gemini 2.5 Flash

2025-06-27 16:06:00

机器之心报道

机器之心编辑部

只需一眨眼的功夫,Mercury 就把任务完成了。


「我们非常高兴地推出 Mercury,这是首款专为聊天应用量身定制的商业级扩散 LLM!Mercury 速度超快,效率超高,能够为对话带来实时响应,就像 Mercury Coder 为代码带来的体验一样。」


image.png


刚刚,AI 初创公司 Inception Labs 在 X 上宣布了这样一个好消息。该公司的创始人之一 Stefano Ermon 实际上也正是扩散模型(diffusion model)的发明者之一,同时他也是 FlashAttention 原始论文的作者之一。Aditya Grover 和 Volodymyr Kuleshov 皆博士毕业于斯坦福大学,后分别在加利福尼亚大学洛杉矶分校和康乃尔大学任计算机科学教授。


image.png


Mercury 效果如何?我们先看一个官方 Demo:


视频显示,一位用户想要学习西班牙语。请求 Mercury 教他一些常见的问候语及其含义。几乎一眨眼的功夫,Mercury 就给出了一些常见的西班牙语问候语及其含义,速度确实非常快。



一直以来,扩散模型是图像生成和视频生成的主流方法。然而,扩散模型在离散数据上的应用,特别是在语言领域,仍然仅限于小规模的实验。与经典的自回归模型相比,扩散模型的优势在于其能够进行并行生成,这不仅可以大幅提高生成速度,还能提供更精细的控制、推理能力和多模态数据处理能力。


然而,将扩散模型扩展到现代 LLMs 的规模,同时保持高性能,仍然是一个未解决的挑战。 


Mercury 就是为此诞生的,其是首个基于扩散模型的 LLM。与自回归(AR)模型相比,Mercury 模型在性能和效率上都达到了最先进的水平。 


在性能表现上,根据第三方测评机构 Artificial Anlys 的基准测试数据显示,Mercury 可媲美 GPT-4.1 Nano 和 Claude 3.5 Haiku 等速度经过优化的前沿模型,同时运行速度提升超过 7 倍。


image.png


image.png


在其他场景下,Mercury 也展现出超强的能力。


首先在实时语音方面。Mercury 凭借其低延迟特性,能够为各类实时语音应用提供支持,包括翻译服务和呼叫中心代理等场景。在实际语音指令测试中,基于标准 NVIDIA 硬件运行的 Mercury,其延迟表现优于在 Cerebras 系统上运行的 Llama 3.3 70B 大模型。


image.png


其次是可交互性。Mercury 是微软 NLWeb 项目的合作伙伴。与 Mercury 结合使用时,NLWeb 能够提供闪电般快速、自然的对话。与其他注重速度的模型(例如 GPT-4.1 Mini 和 Claude 3.5 Haiku)相比,Mercury 的运行速度更快,确保了流畅的用户体验。


image.png


与此同时,Inception Labs 还发布了 Mercury 技术报告,感兴趣的读者可以前去了解更多内容。


image.png


  • 论文标题: Mercury: Ultra-Fast Language Models Based on Diffusion 

  • 论文链接:https://arxiv.org/pdf/2506.17298

  • 试用地址:https://poe.com/Inception-Mercury


我们不难看出,Mercury 是迈向基于扩散语言建模未来的下一步,它将用极其快速和强大的 dLLM 取代当前一代的自回归模型。


既然 Mercury 主打速度快,效率高,那么真实体验效果如何呢?机器之心上手体验了一把。


一手体验


首先测试一下 Mercury 的推理能力,两个经典的问题「9.11 和 9.9 哪个大」「"Strawberry" 中有几个字母 'r'?」都回答正确。



但在「红绿色盲女孩的父亲为什么崩溃」这个问题上败下阵来。



接下来我们测试一下代码能力,我们用 Mercury、Gemini 2.5 Flash、GPT 4.1 mini 生成同一个脚本任务,看看他们表现有什么区别。


「 生成一个 1000 字的 TypeScript 游戏脚本,包括角色类、攻击逻辑、敌人 AI、UI 模块初始化。 」


Mercury 生成过程:



Gemini 2.5 Flash 生成过程:



GPT 4.1 mini 生成过程:



可以看到,Mercury 确实生成速度非常快,在短暂几秒停顿后,大量文本同时出现,任务完成仅仅用时几秒,而 Gemini 和 GPT 生成的文字像打字机一样一个接一个地流出,总耗时较长。 


再来检查一下生成质量怎么样,这里邀请 GPT o3 作为评委老师。


image.png


可以看到,虽然 Mercury 生成速度很快,但生成质量还有待提高。


最后,我们还问了 Mercury 一些日常问题,回答速度非常快。 



还没体验的小伙伴,可以去试一试了。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

音画同步,AI视频也能有完美「原声音」,可灵AI刚上线的!

2025-06-27 16:06:00

机器之心报道

编辑:泽南

AI 生成的「最后一道关卡」已经突破?


因为生成式 AI,火遍全球的 Labubu 有了超萌专属 BGM:


视频来自可灵 AI 创意圈用户。


复杂的自然环境也可以获得相应的背景音。


视频来自 X。


现在还可以生成各种 ASMR,比如切开炸弹的外壳:


视频来自可灵 AI 创意圈用户。


最近,人们都在谈论一种给 AI 生成视频加音效的大模型。


它主打一个「全能」:不论输入的是文本还是静音的视频,它都会给你生成配套的音效或音乐,节奏踩点准确,细节到位合理。更有趣的是,它还能配合视频场景里面的环境,呈现出立体声。


相比之前的一些音效生成 AI,格局一下打开。


这个新突破来自可灵 AI,他们提出的多模态视频生音效模型名叫 Kling-Foley,能够通过大模型自动生成与视频内容同步的高质量立体声音频。


输入的是视频和文字,输出的是音效和 BGM。


简单来说,Kling-Foley 支持基于视频内容与可选文本提示自动生成与视频画面语义相关、时间同步的高质量立体声音频,涵盖音效、背景音乐等多种类型声音内容。它支持生成任意时长的音频内容,还具备立体声渲染的能力,支持空间定向的声源建模和渲染。


少海外网友已经用上了,并在社交平台上大加称赞。



可灵 AI 已经发布了 Kling-Foley 的技术报告,有关它背后的技术我们可以一探究竟。


paper.png


  • 论文:https://www.arxiv.org/pdf/2506.19774

  • 项目主页:https://klingfoley.github.io/Kling-Foley/

  • GitHub 链接:https://github.com/klingfoley/Kling-Foley

  • Benchmark:https://huggingface.co/datasets/klingfoley/Kling-Audio-Eval


看视频就能「脑补」背景音

可灵 AI 用了什么方法?


音视频的同步输出,可谓是生成式 AI 的下一个关键节点。


生成式 AI 正在全球范围内持续爆发,仅视频生成领域里,技术可以说是日新月异。就说可灵 AI 自己,最近更新的 2.1 系列模型,生成的人物运动和细节让人叹为观止。


视频来自X博主@Artedeingenio


不过 AI 生成视频已经出现了两年,大多数生成的内容还是缺乏同步音效的,如果人工加配音、BGM 的话,效率会被直线拉低,毕竟大多数人无法像专业配音师一样掌握复杂的工具。


如何能让大模型更好地给视频配音呢?


这方面的研究其实早已出现,但传统的 AI 文本生成音频(Text-to-Audio, T2A)方法在实际应用的过程中面临着不少挑战,比如它仅限于文本输入,难以精确地「理解」视频,经常出现生成的音效和视频内容不同步的情况。


相比之下,视频生成音频(Video-to-Audio, V2A)方法可以更加直接地结合视频和文本,提升音效生成的相关性和准确度。这就要求训练 AI 模型的数据集既包括视频,也包括配套标记好的音频和文本,从数据规模和多模态标注质量上来看都是一个艰巨的任务。


在 Kling-Foley 模型身上,我们能看到一系列创新。它的整体结构如下:


f2.png


具体来说,Kling-Foley 是一个多模态控制的流匹配模型。在音频生成的流程中,文本、视频和时间提取的视频帧作为条件输入;随后这些多模态特征会通过多模态联合条件模块进行融合,并输入到 MMDit 模块进行处理;该模块预测 VAE 潜在特征,随后由预训练的梅尔解码器将其重建为单声道梅尔声谱图;然后,渲染为立体声梅尔声谱图;最后,通过声码器生成输出波形。


为了解决视频、音频和文本三种模态间的交互建模问题,Kling-Foley 架构中很大程度上借鉴了 Stable Diffusion 3 的 MM-DiT 块设计,实现了在文本、视频和音频任意两种模态组合下的灵活输入。


而让 AI 生成的声音在时间点上与视频对齐是重中之重。为此,模型框架中还引入了视觉语义表示模块和音视频同步模块,能在帧级别上对齐视频条件与音频潜层元素,从而提升视频语义对齐与音视频同步的效果。这些模块与文本条件共同作用,以精准控制生成与视频内容相匹配的拟音。为了支持可变长度的视音频生成并增强时间控制,Kling-Foley 还引入了离散时长嵌入作为全局条件机制的一部分。


另外,在音频 Latent 表征层面,Kling-Foley 也应用了一种通用潜层音频编解码器 (universal latent audio codec),能够在音效、语音、歌声和音乐等多样化场景下实现高质量建模。


潜在音频编解码器的主体是一个 Mel-VAE,它联合训练了一个 Mel 编码器、一个 Mel 解码器和一个鉴别器。VAE 结构使模型能够学习到连续且完整的潜在空间分布,从而显著增强了音频表征能力。


实验结果表明,采用流匹配目标 (stream matching objective) 进行训练的 Kling-Foley,在音频质量、语义对齐和音视频同步方面,于现有公开模型中取得了全新的 SOTA(业内最佳)性能。


从无到有,打造多模态数据集


可灵打造 Kling-Foley 做的另一件重要的事就是从无到有构建数据集。其自建的多模态数据集样本总数高达 1 亿 +,每个样本都包含一个原始视频片段、对应的单声道音频片段,以及关于音频的结构化文本描述。它们来源于真实的在线视频内容,且三种模态紧密对齐。


在如此体量的数据处理过程中,可灵使用了一套自建的多模态大模型自动化数据处理系统,辅以严格的人工标注流程。



其中,音频和视频数据经过质量筛选,以获得高质量的单事件音频和视频片段。随后,系统通过数据增强生成多事件音频样本,同时利用上更多短数据,并使用多模态大模型为音频和视频生成详尽描述。最后,使用大模型将各种描述信息结合起来,生成最终的结构化描述。


把训练集中高层级声音类别的分布可视化一下,可以看到它覆盖了真实世界中大量的声学场景,包括自然环境、人类活动、动物声音、机械操作、交通工具等,这就为学习多样的生成模式,提升合成音频的真实感和可控性提供了扎实的基础。


image.png


可灵还构建了一个名为 Kling-Audio-Eval 基准数据集并将其开源。其中同时包含视频、视频描述、音频、音频描述和声音事件多级标签。它包含 20935 个精细标注的样本,覆盖了交通声、人声、动物声等九大类主要的声音事件场景。它是业界首个包含音视频双模态描述以及音频标签的音效生成基准,其涵盖不同维度的多项评估指标,能支持对模型性能进行全面和多角度的评估。


最后,可灵在一些公开基准上对 Kling-Foley 与一些业界主流方法进行了对比,可见其在语义对齐、时间对齐和音质方面水平领先。



如果比较音效、音乐、语音和歌唱四种场景的编解码能力,Kling-Foley 也在大部分指标上拿到了最优成绩。



看起来,可灵 AI 提出的这个新技术不仅生成的音频在频谱上准确无误,而且在感知上也更接近真实的原始音效。


可灵 AI 的音效生成能力,逐渐实用化


今年 3 月,可灵 AI 平台上线了「文生音效」能力,其中新增了「音效生成」入口,支持用户通过输入文本生成相应音效,并可以基于可灵生成的视频内容进行理解,自动生成匹配的音效内容。


到了这个月初,可灵在推出 2.1 版视频生成模型时,添加了「视频音效」的开关,大家在生成视频的同时,系统也会自动生成与视频匹配的音效,增强了整体视听体验。


从现在开始,「视频音效」功能将全面扩展至可灵平台所有版本的视频模型,覆盖了文生视频、图生视频、多图参考生成视频、视频续写、多模态编辑,基本做到了有视频,就能配音。


与此同时,「音效生成」也进行了一番升级,现在用户可以直接上传本地视频或选择可灵生成的视频,一键生成与视频内容语义贴合、时间同步的音效内容。


可灵 AI 的音效生成界面。


通过可灵的新模型,平台能够自动对视频语义与音频片段实现帧级对齐,「所见即所听」,大幅降低了人们的的音频后期制作成本。AI 生成的音效还是立体声的,能够适配动作、自然环境等多种场景,给足了沉浸感。


当然最重要的是,足够方便简单。


看起来,AI 视频生成的最后一个坎,已经被可灵跨过去了。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

ICML 2025 | 打破残差连接瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化!

2025-06-27 16:06:00

图片


本文第一作者为北京邮电大学副教授、彩云科技首席科学家肖达,其他作者为彩云科技算法研究员孟庆业、李省平,彩云科技CEO袁行远。


残差连接(residual connections)自何恺明在 2015 年开山之作 ResNet [1] 中提出后,就成为深度学习乃至 Transformer LLMs 的一大基石。但在当今的深度 Transformer LLMs 中仍有其局限性,限制了信息在跨层间的高效传递。


彩云科技与北京邮电大学近期联合提出了一个简单有效的残差连接替代:多路动态稠密连接(MUltiway Dynamic Dense (MUDD) connection),大幅度提高了 Transformer 跨层信息传递的效率。



  • 论文标题:MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections

  • 论文:https://arxiv.org/abs/2502.12170

  • 代码:https://github.com/Caiyun-AI/MUDDFormer

  • 模型:

    • https://huggingface.co/Caiyun-AI/MUDDFormer-2.8B

    • https://huggingface.co/Caiyun-AI/MUDDPythia-1.4B

    • https://huggingface.co/Caiyun-AI/MUDDPythia-2.8B


大规模语言模型预训练实验表明,仅增加 0.23% 的参数量和 0.4% 的计算量,采用该架构的 2.8B 参数量 MUDDPythia 模型即可在 0-shot 和 5-shot 评估中分别媲美 6.9B 参数量(~2.4 倍)和 12B 参数量(~4.2 倍)的 Pythia 模型,表明了 MUDD 连接对 Transformer 的基础能力(尤其是上下文学习能力)的显著提升。


这是该团队继 DCFormer [2](ICML 2024)后又一项大模型底层架构创新工作,已被 ICML 2025 接收,论文、代码和模型权重均已公开。


背景


在 Transformer 中残差流汇集了多层的信息,同时也为 Attention 和 FFN 提供多路信息,比如在 Attention 模块中需要获取 query、key、value 三路信息,残差流本身也可以看作一路信息流(记作 R)。虽然残差连接的引入首次让训练超深度网络成为可能,但在当今的深度 Transformer LLMs 中仍有其局限:


  • 深层隐状态的表征坍塌(Representation Collapse)目前 Transformer LLM 普遍采用 Pre-Norm 训练,多个理论和实证工作 [3,4] 表明,当达到一定层深后,再增加更多的层会出现边际效应递减,相邻层的隐状态表征高度相似(即「表征坍塌」),让参数和算力 scaling 的效果大打折扣。


  • 残差流的信息过载Transformer 机制可解释性研究表明,跨越不同层的注意力头和前馈网络通过读写残差流(residual stream)交互组成回路(circuit),对模型的上下文学习(in-context learning)等能力至关重要。在非常深的 Transformer 模型中,残差流作为多层间「通信总线」可能因为多路信息共享残差流,以及多层信息在深层汇集而「超载」成为瓶颈,妨碍形成解决困难任务所必须的复杂回路。


针对上述局限,MUDD 根据当前隐状态动态搭建跨层连接(可视为深度方向的多头注意力),来缓解深层隐状态的表征坍塌,同时针对 Transformer 每层的 query、key、value、残差等不同输入流采用各自的动态连接,来减少多路信息流的相互干扰,缓解残差流的信息过载,这样既大幅度拓宽了跨层信息传输带宽,又保证了非常高的参数和计算效率。


核心架构


如图 1a 所示,为了实现更直接的跨层交互,DenseNet [5] 将当前 Block 和前面所有的 Block 进行稠密连接(Dense Connectivity)。最近 Pagliardini 等人 [6] 将其引入 Transformer,提出了 DenseFormer(NeurIPS 2025),如图 1b 所示。它通过一组可学习但静态的权重(如 w_i,j)来加权求和前面所有层的输出。这种方式虽然拓宽了信息通路,但静态权重使得对于序列中不同 token 都做同样处理,限制了表达能力。


图 1. MUDD 的架构图


研究者首先提出了 DynamicDenseFormer(如图 1c),用 表示第个 token 的跨层信息聚合模块 (Depth-wise Aggregate),连接权重不再是固定的参数,而是由当前层的隐状态动态生成的一个权重矩阵。这意味着,模型可以根据每个 token 的上下文语境,自适应地决定应该从前面的哪一层、以多大的权重提取信息。本质上,这可以看作是在深度维度上的一次单头注意力,与 Vaswani 等人 [7] 在 Transformer 中提出的 token 维度上的注意力机制遥相呼应。



在 DynamicDenseFormer 的基础上引入多路连接就得到了 MUDDFormer,如图 1d 所示,它将原本单一的动态连接,解耦成四路独立的动态连接,分别为 Q、K、V、R(图 1d 中的等)定制各自的跨层信息聚合模块。这样每一路信息流都可以根据自己的需求,更高效地从前面层中获取对应信息。可看作是深度向的多头注意力




实验评估


  • Scaling Law


图 2. MUDDFormer 和基线模型的扩展实验


研究者在 Pile 数据集上测试了 MUDDFormer 和其他基线模型的扩展能力,如图 2 所示。Hyper-Connections [8] 也是字节跳动 Seed 最近一个发表在 ICLR 2025 的改进残差连接的工作,图 2 中可见 DynamicDenseFormer 已经比 DenseFormer 和 Hyper-Connections 都表现好,而且在解耦多路信息流后,MUDDFormer 又有明显的效果提升。


在所有模型尺寸下 MUDDFormer 都显著领先 Transformer++ 和其他基线模型 (Loss 越低越好),并且其领先优势随着模型增大并未减小。MUDDFormer-834M 的性能,已经超越了需要 1.89 倍计算量的 Transformer++ 基线模型,展现了惊人的计算效率提升。


图 3. MUDDFormer 和 Transformer++ 的深度扩展实验


为了验证 MUDDFormer 在更深层模型上的有效性,研究者在不增加参数量的前提下增加模型的深度,并进行了扩展实验,如图 3。Transformer++ 在超过 24 层后收益递减(缩放曲线几乎重合),而 deep MUDDFormer 在高达 42 层时仍能保持收益,使得在 797M 下达到了 2.08 倍 Transformer++ 的性能。这进一步验证了 MUDD 连接可以通过增强跨层信息流来缓解深度引起的瓶颈。


  • 下游任务测评


研究者将 MUDD 架构与开源的 Pythia 模型框架结合,在 300B tokens 的数据上进行训练,并与从 1.4B 到 12B 的全系列 Pythia 模型进行比较,如图 4。


图 4. 下游任务对比测评


首先,MUDDPythia 在 0-shot 和 5-shot 任务上的平均准确率,都明显高于同等计算量下的 Pythia 模型,而且在 5-shot 下的提升效果更明显,说明上下文能力得到了额外的增强。


从图 5 中可以看出在 0-shot 下,2.8B 的 MUDDPythia 的性能媲美了 6.9B 的 Pythia,实现了 2.4 倍的计算效率飞跃;在 5-shot 下,2.8B 的 MUDDPythia 的性能,甚至追平了 12B 的 Pythia,实现了 4.2 倍计算效率提升! 


图 5. 下游任务准确率对比曲线


这表明,MUDD 所构建的高效信息通路,极大地增强了模型在上下文中动态构建复杂推理回路的能力。


分析


图 6 展示了模型注意力头激活比例随层数的变化,在标准的 Pythia 模型中,随着层数加深大量注意力头都只关注少数几个 token(attention sink [9])并未激活。


图 6. 注意力头激活比例的逐层变化曲线


然而,在 MUDDPythia 中,几乎在所有层的注意力头激活率都远高于 Pythia,平均高出约 2.4 倍。这说明 MUDD 连接加强了对 Attention 的利用,也部分解释了上下文能力的增强。


结语


MUDDFormer 通过简单高效的实现改进了残差连接,为 Transformer 内部不同的信息流(Q、K、V、R)建立各自独立的动态跨层连接,不仅增强了 Transformer 模型的跨层交互,而且进一步提升了模型的上下文学习能力。实验证明这种新的连接机制能以微弱的代价,换来模型性能和计算效率的巨大飞跃。MUDDFormer 所展示的潜力,使其有望成为下一代基础模型架构中不可或缺的新基石。


参考文献


[1] He, K., Zhang, X., Ren, S., and Sun, J. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), pp. 770–778, 2016.

 [2] Xiao, Da, et al. "Improving transformers with dynamically composable multi-head attention." Proceedings of the 41st International Conference on Machine Learning. 2024. 

[3] Liu, L., Liu, X., Gao, J., Chen, W., and Han, J. Understanding the difficulty of training transformers. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020b.

 [4] Gromov, A., Tirumala, K., Shapourian, H., Glorioso, P., and Roberts, D. A. The unreasonable ineffectiveness of the deeper layers. arXiv preprint arXiv:2403.17887, 2024. 

[5] Huang, G., Liu, Z., Van Der Maaten, L., and Weinberger, K. Q. Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), pp. 4700–4708, 2017. 

[6] Pagliardini, M., Mohtashami, A., Fleuret, F., and Jaggi, M. Denseformer: Enhancing information flow in transformers via depth weighted averaging. In Proceedings of the Thirty-Eighth Annual Conference on Neural Information Processing Systems (NeurIPS), 2024. 

[7] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. Attention is all you need. Advances in neural information processing systems, 30, 2017.

 [8] Zhu, D., Huang, H., Huang, Z., Zeng, Y., Mao, Y., Wu, B., Min, Q., and Zhou, X. Hyper-connections. In Proceedings of the Thirteenth International Conference on Learning Representations (ICLR), 2025 

[9] Xiao, G., Tian, Y., Chen, B., Han, S., and Lewis, M. Efficient streaming language models with attention sinks. In The Twelfth International Conference on Learning Representations (ICLR), 2024b.


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文