2025-10-20 17:15:00
作者简介:本文第一作者为卡耐基梅隆大学机器人所研究生 Tonghe Zhang,主要研究方向为机器人操作大模型和全身控制算法。合作者为德克萨斯大学奥斯汀分校博士生 Sichang Su, 研究方向为强化学习和通用机器人策略。指导教师是清华大学和北京中关村学院的 Chao Yu 教授以及清华大学 Yu Wang 教授。
今年,流匹配无疑是机器人学习领域的大热门:作为扩散模型的一种优雅的变体,流匹配凭借简单、好用的特点,成为了机器人底层操作策略的主流手段,并被广泛应用于先进的 VLA 模型之中 —— 无论是 Physical Intelligence 的 ,LeRobot 的 SmolVLA, 英伟达的 GR00T 和近期清华大学发布的 RDT2。
想要进一步增强开源 VLA 模型的能力,除了增加数据多样性,强化学习也是一种高度有效的方法。来自卡内基梅隆大学、清华大学和德克萨斯大学奥斯汀分校的研究团队提出了一个用于微调流匹配策略的在线强化学习框架 ReinFlow, 该工作已被 NeurIPS 2025 接收,并开源了详细的复现教程,包括代码、训练权重、和训练结果。
论文标题:ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning
论文链接:https://arxiv.org/abs/2505.22094
项目主页:https://reinflow.github.io
开源资源(代码、模型、数据、W&B 训练记录)https://github.com/ReinFlow/ReinFlow
ReinFlow 的算法特点
理论基础:基于策略梯度理论推导,将确定性流转换为离散时间马尔可夫过程,直接优化整条流匹配链;
训练高效:相比 DPPO 节省 60% 以上训练时间,支持少步甚至单步推理;
实验验证:在多个基准任务上相较预训练模型取得了显著性能提升;
复现友好:提供完整训练教程、数据集、检查点、WandB 指标,支持许多 legged locomotion 和 manipulation benchmark, 以及在 SimplerEnv 中使用规模化并行仿真微调模型。
ReinFlow 核心原理
ReinFlow 是一个针对常微分方程策略的通用策略梯度算法。想要进行策略梯度优化,首先要设法获取动作的边缘概率分布 。对于流匹配模型而言,这与推理时动作生成的机理相关。流匹配策略每一步推理时进行了如下步骤:
流匹配模型推理公式:
第一步动作来自高斯噪声;
对速度积分得到中间动作;
最后一步动作与环境交互。
如果使用流匹配的理论公式,我们可以计算流策略的最终动作的似然函数。但是由于流匹配动作通过积分来定义,这个方法计算相当复杂,而且存在估计噪声,并不适合于强化学习。那么有没有办法可以简单获得流匹配策略推理时候的似然函数呢?其实可以, 但是要做一些小改动……
流匹配模型的推理是一个马尔科夫过程。如果我们贮存所有的中间动作,虽然难以获得最终动作的最终动作的边缘分布,但是可以用链式法则获得扩散链条的联合概率分布:
但是由于使用常微分方程进行积分,预训练流匹配模型的每步转移概率都是狄拉克函数, 据此仍然无法导出数值稳定的计算公式。因此,在 ReinFlow 中,我们向流策略的确定性路径中注入少量可学习的噪声,将其转移过程改回一个随机的扩散过程:
其中,第一项是预训练得到的速度,对应随机微分方程的漂移项;第二项是端到端训练的噪声注入网络,对应微分方程的扩散项。这样,由于相邻扩散步的转移概率都是高斯分布,流匹配的联合概率便可以被严格计算出来:
好消息是,我们的研究表明利用联合概率也可以进行策略梯度优化。根据如下定理,我们可以使用多种经典的策略梯度方法对流匹配策略进行强化学习。
虽然引入噪声改变了流匹配模型的轨迹,但是我们把噪声控制到较小范围内,以减少与预训练策略的偏离,防止微调时性能大幅受损。但同时,我们也为噪声设置强度下限,以鼓励适当的探索。另外,ReinFlow 虽然引入了额外的噪声网络,但是其参数量远小于预训练的速度场,并且与之共用视觉特征:这样可以减少微调时带来的额外开销。
任务评测
ReinFlow 是一个通用的框架。原理上,ReinFlow 可以适用于所有常微分方程定义的策略,比如 Rectified Flow 和 Shortcut Models,甚至支持极少步数下,如 1,2,4 步时的推理。而且,更新公式可以适用于几乎所有强化学习梯度算法,比如 PPO。
足式运动控制
在 D4RL 足式运动控制任务中,ReinFlow 微调后的 Rectified Flow 策略取得了平均 135.36% 的净性能增长。与当前的扩散 RL 微调方法 DPPO 相比,ReinFlow 在保持类似性能的同时,可以极大减少扩散步骤,从而节省了微调所用的 82.63% 的墙钟时间。
长程操作任务
在接收稀疏奖励和高维输入的操作任务中(Franka Kitchen、Robomimic) ,ReinFlow 微调的 Shortcut Model 策略在 4 步甚至 1 步去噪的情况下,比预训练模型平均净增了 40.34% 的成功率。其性能与使用 DPPO 微调的 DDIM 策略相当,但训练时间平均节省 23.20%。
VLA + 大规模并行强化学习
除了标准基准,研究团队还成功地使用 ReinFlow 利用 ManiSkill3 框架在 SimplerEnv 环境中微调了 模型。 在包含 25 种不同物品和、十余种桌面设置和上百种初始化位姿的高度随机化场景中,ReinFlow 可以大幅提高
模型的抓取成功率。
消融实验
研究团队进行了详细的消融研究,研究以下因素对训练结果的影响:
1. 数据扩展 vs RL 微调:实验显示仅靠增加数据或推理步数较快达到性能瓶颈,而 RL 微调能进一步提升性能。
2. 时间采样策略:ReinFlow 对均匀、Logit-normal 和 Beta 分布等多种时间采样方式都表现良好的性能。
3. 噪声条件和大小:同时以状态和时间为条件生成噪声,有助于产生更多样化的动作。噪声过小训练会陷入瓶颈,一定阈值后可以探索的新策略。
4. 熵正则化:可以进一步促进探索。
保姆级开源
ReinFlow 的 GitHub 项目已经全面开源,并在积极维护中。欢迎通过邮件或 GitHub 与作者交流。项目包含了:
完整代码库
支持 Rectified Flow、Shortcut Models 等多种流模型;
涵盖 OpenAI Gym(D4RL)、Franka Kitchen、Robomimic 等多个经典 RL 环境;
详细的安装指南和使用教程。
模型 Checkpoints
提供所有实验的预训练模型;
包含行为克隆和 RL 微调后的权重;
支持一键加载和评估。
WandB 指标
公开所有实验的训练曲线(损失、奖励、学习率等);
可直接访问:https://wandb.ai/reinflow/projects;
便于社区下载基线和本方法测试结果,进行公平验证和对比。
详尽文档
完整复现实验的步骤:https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceExps.md
复现论文图表的指南:https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceFigs.md
关键超参数说明:https://github.com/ReinFlow/ReinFlow/blob/release/docs/Implement.md
添加自定义数据集 / 环境:https://github.com/ReinFlow/ReinFlow/blob/release/docs/Custom.md
常见问题解答:https://github.com/ReinFlow/ReinFlow/blob/release/docs/KnownIssues.md
未来展望
ReinFlow 将在未来公布更多结果,包括:
发布更多大型视觉语言模型微调结果;
支持用在线 RL 微调 Mean Flow;
研究如何使用该方法进行 sim2real 和真机强化学习微调。
欢迎大家关注!
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2025-10-20 17:15:00
机器之心编辑部
我们或许能通过文本到图像的方法实现近 10 倍无损上下文压缩。
没想到吧,DeepSeek 刚刚开源了新模型,还是一款 OCR 模型。可以看到,该模型的参数量为 3B,刚上线不久就已经有 100 多次下载量了。
该项目由 DeepSeek 三位研究员 Haoran Wei、Yaofeng Sun、Yukun Li 共同完成。其中一作 Haoran Wei 曾在阶跃星辰工作过,曾主导开发了旨在实现「第二代 OCR」的 GOT-OCR2.0 系统(arXiv:2409.01704),该项目已在 GitHub 收获了超 7800 star。也因此,由其主导 DeepSeek 的 OCR 项目也在情理之中。
论文标题:DeepSeek-OCR: Contexts Optical Compression
项目地址:https://github.com/deepseek-ai/DeepSeek-OCR
论文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR
DeepSeek 表示,DeepSeek-OCR 模型是通过光学二维映射技术压缩长文本上下文可行性的初步探索。
该模型主要由 DeepEncoder 和 DeepSeek3B-MoE-A570M 解码器两大核心组件构成。其中 DeepEncoder 作为核心引擎,既能保持高分辨率输入下的低激活状态,又能实现高压缩比,从而生成数量适中的视觉 token。
实验数据显示,当文本 token 数量在视觉 token 的 10 倍以内(即压缩率 <10×)时,模型的解码(OCR)精度可达 97%;即使在压缩率达到 20× 的情况下,OCR 准确率仍保持在约 60%。
这一结果显示出该方法在长上下文压缩和 LLM 的记忆遗忘机制等研究方向上具有相当潜力。
此外,DeepSeek-OCR 还展现出很高的实用价值。在 OmniDocBench 基准测试中,它仅使用 100 个视觉 token 就超过了 GOT-OCR2.0(每页 256 个 token) 的表现;同时,使用不到 800 个视觉 token 就优于 MinerU2.0(平均每页超过 6000 个 token)。在实际生产环境中,单张 A100-40G GPU 每天可生成超过 20 万页(200k+) 的 LLM/VLM 训练数据。
DeepSeek-OCR 在端到端模型测试中以最少的视觉 token 数达到了最先进的性能。
DeepSeek-OCR:上下文光学压缩
DeepSeek 探索的方法概括起来就是:利用视觉模态作为文本信息的高效压缩媒介。
什么意思呢?我们知道,一张包含文档文本的图像可以用比等效文本少得多的 Token 来表示丰富的信息,这表明:通过视觉 Token 进行光学压缩可以实现高得多的压缩率。
基于这一洞见,DeepSeek 从以 LLM 为中心的视角重新审视了视觉语言模型 (VLM),其中,他们的研究重点是:视觉编码器如何提升 LLM 处理文本信息的效率,而非人类已擅长的基本视觉问答 (VQA) 任务。
DeepSeek 表示,OCR 任务作为连接视觉和语言的中间模态,为这种视觉 - 文本压缩范式提供了理想的试验平台,因为它在视觉和文本表示之间建立了自然的压缩 - 解压缩映射,同时提供了可量化的评估指标。
DeepSeek-OCR 便由此而生。这是一个为实现高效视觉 - 文本压缩而设计的 VLM。
如下图所示,DeepSeek-OCR 采用了一个统一的端到端 VLM 架构,由一个编码器和一个解码器组成。
其中,编码器 (即 DeepEncoder) 负责提取图像特征,并将视觉表示进行 Token 化和压缩。解码器则用于根据图像 Token 和提示词 (prompt) 生成所需的结果。
DeepEncoder 的参数量约为 3.8 亿 (380M),主要由一个 80M 的 SAM-base 和一个 300M 的 CLIP-large 串联而成。解码器采用 3B MoE 架构,激活参数量为 5.7 亿 (570M)。
DeepEncoder
DeepSeek 研究发现,为了探索上下文光学压缩的可行性,我们需要一个具备以下特点的视觉编码器:
1. 能够处理高分辨率;
2. 在高分辨率下激活值低;
3. 视觉 Token 数量少;
4. 支持多分辨率输入;
5. 参数量适中。
然而,现有的开源编码器无法完全满足所有这些条件。因此,DeepSeek 自行设计了一款新颖的视觉编码器,命名为 DeepEncoder。
DeepEncoder 主要由两个组件构成:一个以窗口注意力为主的视觉感知特征提取组件,以及一个采用密集全局注意力的视觉知识特征提取组件。
基于之前相关研究的预训练成果,该团队分别使用 SAM-base (patch 大小为 16) 和 CLIP-large 作为这两个组件的主要架构。
对于 CLIP,他们移除了其第一个 patch 嵌入层,因为它的输入不再是图像,而是来自前一个流程的输出 Token。在两个组件之间,该团队借鉴了 Vary 的设计(参阅论文《Vary: Scaling up the vision vocabulary for large vision-language model》),使用了一个 2 层的卷积模块对视觉 Token 进行 16 倍的下采样。每个卷积层的核大小为 3,步长为 2,填充为 1,通道数从 256 增加到 1024。假设我们输入一张 1024×1024 的图像,DeepEncoder 会将其分割成 1024/16 x 1024/16 = 4096 个 patch Token。
由于编码器的前半部分主要由窗口注意力构成,且参数量仅为 80M,因此其激活值是可接受的。在进入全局注意力之前,这 4096 个 Token 会经过压缩模块,数量变为 4096/16 = 256,从而使得整体的激活内存变得可控。
MoE 解码器
该模型的解码器使用了 DeepSeekMoE ,具体为 DeepSeek-3B-MoE。
在推理过程中,模型会激活 64 个路由专家中的 6 个以及 2 个共享专家,激活参数量约为 5.7 亿 (570M)。3B 的 DeepSeekMoE 非常适合以领域为中心 (这里即为 OCR) 的 VLM 研究,因为它在获得 3B 模型表达能力的同时,也享有了 5 亿 (500M) 参数量小模型的推理效率。
解码器从 DeepEncoder 压缩后的潜在视觉 Token 中重建原始文本表示,过程如下:
其中 Z 是来自 DeepEncoder 的压缩后潜在 (视觉) Token,而 是重建的文本表示。函数 f_dec 代表一个非线性映射,紧凑的语言模型可以通过 OCR 风格的训练来有效地学习它。DeepSeek 推测认为:大语言模型通过专门的预训练优化,将能更自然地集成这类能力。
数据引擎
DeepSeek 也为 DeepSeek-OCR 构建了复杂多样的训练数据,包括:
OCR 1.0 数据,主要包含传统 OCR 任务,如场景图像 OCR 和文档 OCR;
OCR 2.0 数据,主要包括复杂人造图像的解析任务,如常见图表、化学分子式和平面几何解析数据;
通用视觉数据,主要用于为 DeepSeek-OCR 注入一定的通用图像理解能力,并保留通用的视觉接口。
数据方面,DeepSeek 还进行了更多有利于 OCR 任务的设计,详情请参阅原论文。
训练流程
该模型的训练流程非常简单,主要包括两个阶段:
独立训练 DeepEncoder
训练 DeepSeek-OCR
DeepEncoder 的训练遵循 Vary 的方法,利用一个紧凑的语言模型并采用下一个 Token 预测的框架来训练 DeepEncoder。
在此阶段,DeepSeek 使用了前文提到的所有 OCR 1.0 和 2.0 数据,以及从 LAION 数据集中采样的 1 亿条通用数据。所有数据均使用 AdamW 优化器和余弦退火调度器进行训练,共训练 2 个 epoch,批处理大小为 1280,学习率为 5e-5。训练序列长度为 4096。
在 DeepEncoder 准备就绪后,再训练 DeepSeek-OCR。整个训练过程在 HAI-LLM 平台上进行。整个模型采用了流水线并行 (PP),并被分为 4 个部分,其中 DeepEncoder 占用两部分,解码器占用两部分。
对于 DeepEncoder,DeepSeek 将 SAM 和压缩器视为视觉 Tokenizer,放置在 PP0 上并冻结其参数;同时将 CLIP 部分视为输入嵌入层,放置在 PP1 上,其权重不冻结并参与训练。对于语言模型部分,由于 DeepSeek3B-MoE 有 12 层,他们在 PP2 和 PP3 上各放置 6 层。
他们使用 20 个节点 (每个节点配备 8 个 A100-40G GPU) 进行训练,数据并行 (DP) 度为 40,全局批处理大小为 640。优化器为 AdamW,配合基于步数 (step-based) 的调度器,初始学习率为 3e-5。对于纯文本数据,训练速度为每天 900 亿 Token;对于多模态数据,训练速度为每天 700 亿 Token。
实验结果
视觉 - 文本压缩
研究选用了 Fox 基准数据集来验证 DeepSeek-OCR 在文本密集型文档上的压缩与解压能力。
如表 2 所示,在 10× 压缩比的情况下,模型的解码精度可达约 97%。
当压缩比超过 10× 时,性能开始下降,他们猜测可能有两个原因:
长文档的版面布局更复杂,导致信息分布不均;
在 512×512 或 640×640 分辨率下,长文本会变得模糊。
当压缩比接近 20× 时,作者发现模型的精度仍可达到约 60%。
OCR 实际性能
DeepSeek-OCR 不仅是一个实验性模型,还具备很强的实用能力。结果如表 3 所示。
具体而言:
在仅使用 100 个视觉 token(分辨率 640×640) 的情况下,DeepSeek-OCR 的表现超越了使用 256 个 token 的 GOT-OCR2.0 ;
当使用 400 个视觉 token(其中有效 token 为 285,分辨率 1280×1280) 时,其性能已可与当前 SOTA 模型相当;
进一步地,在使用不到 800 个视觉 token(即 Gundam 模式) 时,DeepSeek-OCR 的性能超过了 MinerU2.0 ,后者需要近 7,000 个视觉 token。
这些结果表明,DeepSeek-OCR 在实际应用中表现出极强的性能与效率,并且由于其更高的 token 压缩率,具有更高的研究潜力与扩展空间。
表 4 结果表明,不同类型文档对视觉 token 的需求差异较大:
对于幻灯片类文档,仅需 64 个视觉 token 即可达到令人满意的识别效果;
对于书籍和报告类文档,100 个视觉 token 即可取得较好表现。
定性研究
图 7、图 8、图 9、图 10 所示,模型能够对图表、几何图形、化学公式,甚至自然图像进行深度解析,只需使用一个统一的提示词(prompt)即可完成。
多语言识别:针对 PDF 文档,DeepSeek-OCR 支持近 100 种语言的识别。
如图 11 所示展示了 DeepSeek-OCR 在阿拉伯语(Arabic) 与僧伽罗语(Sinhala) 的可视化识别结果。
通用视觉理解:此外,DeepSeek-OCR 还具备一定程度的通用图像理解能力,相关的可视化结果如图 12 所示。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2025-10-20 17:15:00
本文中,来自华南理工大学、MiroMind AI、新加坡国立大学以及琶洲实验室的研究者们提出一种新的生成模型 Diffusion Brush,首次将扩散模型用于文本行级的手写体生成,在英文、中文等多语言场景下实现了风格逼真、内容准确、排版自然的文本行生成。
研究背景
AI 会写字吗?在写字机器人衍生换代的今天,你或许并不觉得 AI 写字有多么困难。
那么,如果 AI 写的字和你写的字一模一样,你会作何感想?是迫不及待地生成一套属于自己的字体,还是担心签名信息不再可靠,抑或是可惜这项技术没能早点出现帮你写作业……
无论如何,这项笔迹模仿的技术的确已日臻成熟。现在,你只需要在纸上写下几个字,AI 就能准确学习并模仿你的笔迹写出任何字。使用 AI 模仿手写文本,不仅能真实再现书写者风格,轻松创造属于用户个人的字体库,也在字体设计、笔迹验证等诸多领域具有广阔的应用前景。今天要介绍的是 DiffBrush,这是一个全新的扩散模型,能够轻松生成逼真的手写体文本行。
此前,相关研究团队已接连发表「SDT」(CVPR 2023) 和「One-DM」 (ECCV 2024) 两项与手写文本风格化生成相关的研究成果,机器之心均进行了相关报道。其中「One-DM」仅凭单张手写样本便能生成与样本风格相似度很高的任意文本。
然而,现有的手写文本生成工作普遍关注「字符级」生成,也即只生成一个单词或是汉字,如果要生成一整段文本行,则只能将若干个字符拼接合成在一起。这就像是你在不同纸上写字,把每个字分别裁剪下来,再组合成一行字。这种做法很容易导致字符不对齐,或上或下,或大或小,看起来歪歪扭扭,并不符合人类的书写习惯。
此外,生成字符再合成文本行的做法使得字符间距趋于一致,然而真实笔迹的字符间距往往是富于变化的,并且这些变化也可视为书写者风格的一部分。
现有的直接生成手写体文本行的方法较为有限,这些方法忽略了风格学习和内容学习间发生的互相干扰,且难以保证长文本生成中大量字符的内容准确度,其在风格保真度和内容准确性方面都存在不足。
经过多方考虑和实验求证,研究者们提出了新颖的基于扩散模型的手写体文本行生成方法 DiffBrush,能够生成风格逼真、内容准确、排版自然的手写体文本行。值得注意的是,这是扩散模型首次被应用于文本行生成任务。目前论文的代码和数据已经开源,欢迎大家关注!
论文标题:Beyond Isolated Words: Diffusion Brush for Handwritten Text-Line Generation
论文地址:https://arxiv.org/abs/2508.03256
代码开源:https://github.com/dailenson/DiffBrush
关键问题
围绕手写体文本行生成这一目标,研究者们分析了以下两个关键问题:
如何保证生成的文本行符合人类书写习惯,即垂直方向对齐且字符间距存在变化?
如何使得生成的文本行既在字体风格上贴近书写者,又能有较高的整体内容可读性和局部内容准确性?
接下来看研究者如何解决上述问题。
技术方案
研究动机
研究者发现,现有的手写体文本行生成模型的内容学习和风格学习之间存在干扰。例如,最小化内容识别损失函数促使模型生成更容易被 OCR 识别的「标准」字形,然而这会影响其对真实风格的提取,也即模型为了生成的内容更准确,可能会使生成的风格不那么准确。
另一方面,研究者发现应用于文本行级的方法优先考虑全局准确性,但通常无法确保字符级别的准确性。
受启发于上述观察,研究者考虑将风格和内容解耦,在风格学习过程中动态破坏内容信息,使其专注于文本风格模式的提取;此外,研究者构建了一个多尺度判别器,从行级和字符级提供更细粒度的内容监督,以兼顾内容的全局和局部准确性。
方法框架
DiffBrush 的整体框架如下图所示,主要包括内容解耦的风格模块、风格 - 内容融合模块、条件扩散生成器和多尺度内容判别模块。
首先,将手写样本送入 CNN-Transformer 风格编码器,通过列向掩码与行向掩码分别增强垂直方向和水平方向的风格学习,经 Proxy-NCA 对比学习后输出垂直增强特征与水平增强特征。
其次,内容编码器把目标文本渲染成 Unifont 图像并提取内容特征,并在风格 - 内容融合模块分别获取上述风格特征,进而得到条件向量。之后,条件向量引导条件扩散生成器执行去噪过程,合成整行手写图像。
最后,多尺度内容判别器在行级监督字符顺序和基线连贯性,在词级判别字符结构真伪,最终生成风格一致、基线齐整、词距自然的手写体文本行。
(a) 内容解耦的风格模块。为避免内容学习对风格学习造成干扰,DiffBrush 提出内容解耦的风格模块,让模型仅关注字符风格。一个较为直接的解耦方法是对图像进行掩码破坏,那么如何设置掩码比较好呢?
DiffBrush 采用「列掩码 + 行掩码」的内容解耦策略,分别从垂直方向和水平方向对字符内容进行掩蔽。在破坏字符内容的同时,列掩码保留了字高、倾斜度等信息,行掩码保留了字符宽度、间距等信息,从而有效保真风格。掩码后的特征经平均池化分别得到列向量与行向量,分别在 Proxy-NCA 损失函数的引导下聚集同一书写者的风格特征,同时推开不同书写者的风格特征。最终由训练得到垂直风格增强特征 S_ver 和水平风格增强特征 S_hor。值得注意的是,模型在内容掩蔽之前就已经提取了字符的完整风格特征。
(b) 多尺度内容判别模块。长文本生成容易在局部字符中出现错误,为兼顾全局字符顺序与局部字符结构的准确性,DiffBrush 构建了一个多尺度内容判别模块,包括行级判别模块 D_line 和词级判别模块 D_word。
D_line 模块将生成的文本行图像与标准的内容引导图 I_line 沿通道维度进行连接,并将结果分割成 n 个片段,每个片段约一个字符宽度,随后使用 3D-CNN 在「段 - 高 - 宽」三维滑动,判断每一个分割片段是否正确,从而确保字符顺序与词间空白部分准确。 D_word 模块使用了预训练 CNN-LSTM 注意力模块获取单词位置,逐一分离出文本行中的单词。通过对生成图像和标准内容引导图 I_word 中对应的单词内容进行对比,来确保生成单词的内容准确性。由于 I_line 和 I_word 都是无风格字样,判别模块仅对不正确的内容进行惩罚,并不约束风格,因而能够在不削弱风格模仿的前提下,有效降低字符错误率。
(c) 风格 - 内容融合模块。在得到风格特征后,DiffBrush 并未直接将风格与内容分别注入扩散网络,而是先将风格和内容进行融合,再统一输入到 U-Net 中,这里采用了与 One-DM 类似的方法。
具体而言,内容编码器先将目标文本的 Unifont 渲染图编码为内容查询矩阵 Q,在 6 层 Transformer Decoder 组成的 Blender 中,前三层以 Q 为 Query,S_ver 为 Key/Value,进行垂直风格融合;上述输出作为新的 Query,S_hor 为 Key/Value,进行水平风格融合。最终得到的融合向量 C 引导后续扩散去噪过程。
实验评估
定量评估
DiffBrush 在英文、中文等数据集上都取得了超过现有方法的优越性能。值得注意的是,在同样使用一张参考样本的情况下,DiffBrush 在各项指标上相较于 One-DM 均有较大提升,且显著优于其他使用多张参考样本的方法。
定性评估
在英文文本行生成任务中,相比之前的各种方法, DiffBrush 生成的文本行在字符倾斜度、墨迹深浅、笔画宽度等方面更接近参考样本。对于同样使用了扩散方法的 DiffusionPen 和 One-DM,红圈部分显示了其生成结果的缺失字符或结构错误。
而在字符结构更复杂的中文文本行生成任务中,与 One-DM 方法相比, DiffBrush 生成的手写体文本行也表现出与参考样本最相似的样式,尤其在字符间距和墨水颜色方面。同时 DiffBrush 能生成更加准确的字符结构。
消融实验
核心模块对算法性能的影响
如下表所示,DiffBrush 的内容解耦的风格模块与多尺度内容判别模块存在协同效应。相较于无掩码和随机掩码,论文提出的「列掩码 + 行掩码」的方法更佳。尤其重要的是,多尺度内容判别模块在不影响 HWD 风格指标(甚至更好)的情况下,显著降低了字符错误率。
内容解耦风格学习的分析
实验结果显示,添加垂直风格增强 S_ver 或水平风格增强 S_hor 均可提高文本行生成的样式质量。其中,S_ver 增强了风格模仿能力,特别是在保持单词的垂直对齐方面;同时,S_hor 也改善了风格学习,如字符水平间距。这些发现支持了论文作者的动机,即不同方向的内容屏蔽策略有助于风格学习。
直接生成文本行和组装文本行的分析
论文应用 DiffusionPen 中的字符拼接策略,使其他字符级生成方法能够合成文本行。相比于这些拼接出的文本行,专注于文本行生成的 DiffBrush 展现出了较为显著的优越性。
总结与展望
当数字文档的效率与手写文本的温度交织,AI 也可承载温情。只需一行参考文字,便可生成风格高度相似且任意指定内容的文本行,这就是 DiffBrush。展望未来,DiffBrush 在个性化字体定制、历史笔迹复原、鲁棒文本行识别器训练等方面具有广阔应用前景。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2025-10-20 15:47:00
现有视觉语言大模型(VLMs)在多模态感知和推理任务上仍存在明显短板:1. 对图像中的细粒度视觉信息理解有限,视觉感知和推理能力未被充分激发;2. 强化学习虽能带来改进,但缺乏高质量、易扩展的 RL 数据。
AGILE 提出一种全新的自监督学习范式,将「智能体交互」迁移至多模态大模型的强化学习训练中,通过「模型生成动作代码 + 视觉环境反馈」的循环式交互过程,让模型像人一样边观察、边推理、边学习,从而显著提升模型视觉感知与逻辑推理能力。
Title:Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models
Paper:https://arxiv.org/pdf/2510.01304
Project Page:https://yuzeng0-0.github.io/AGILE/
Dataset:https://huggingface.co/datasets/YuZeng260/AGILE
Code:https://github.com/yuzeng0-0/AGILE
作者单位:中科大、上海 AI Lab、华东师大、港中文
图 1:AGILE 主要工作框架
为了克服数据瓶颈与可扩展性问题,研究者们选择「拼图」作为一种高效的兼具感知和推理的代理任务,提出 AGILE。将拼图过程建模为「可控、可验证」的交互式形式:
模型在每一步生成 Python 动作代码(Swap、Observe、Crop、Zoom);
环境执行代码、返回视觉反馈;
模型根据环境反馈继续规划调整拼图,该循环重复至拼图完成。
这一闭环交互形成了「观察–交互–反馈–学习」的智能体训练范式,使 VLMs 能在自监督方式下持续提升感知和推理能力。
AGILE 的完整流程分为两个阶段:
Cold-Start 阶段,使用 Gemini 2.5 Pro 生成 1.6K 条高质量专家拼图交互轨迹,教会模型如何正确生成动作代码与交互逻辑,解决初期模型「不会动手」的问题;
Reinforcement Learning 阶段,在 15.6K 张图像上训练拼图任务,采用 GRPO 算法,通过准确率、格式规范与交互轮数三重奖励信号优化策略。
图 2:模型拼图过程中激发出来的感知和推理行为
研究者们进行了大量实验,验证了 AGILE 的有效性,并得到了多条富有启发意义的结论:
研究者们设计了系统的拼图评估数据集,涵盖不同难度(2×2、3×3)与不同初始正确块数(L0–L7)。模型性能以两种指标衡量:Acc,所有块完全放对的比例;Score,正确拼块数占总拼块数的比例。在最简单的 2×2 任务中,AGILE 使准确率从 9.5% 提升至 82.8%,比 Gemini 2.5 Pro 高出 36.4 个百分点。在更具挑战性的 3×3 拼图中,也从 0.4% 提升至 20.8%,标志着模型感知和推理能力大幅跃升。
表 1:拼图 Acc 结果。LN 表示难度级别,N 表示初始正确拼图块数。N 值越小,拼图越乱,难度越高。最佳结果以粗体显示,次佳结果以下划线显示。
通用能力即泛化性评测:经过拼图训练,模型在 9 项通用视觉任务中(涵盖真实世界场景、高分辨率场景、细粒度感知、幻觉和多模态推理)平均提升 3.1%,展现出强大的泛化能力。进一步验证了拼图任务作为代理任务对于通用视觉能力的泛化价值。
表 2:不同模型在 9 个基准测试上的性能比较。缩写:MME-RW (MME-RealWorld-Lite)、RWQA (RealWorldQA)、HRB4K (HRBench4K)、HRB8K (HRBench8K)、HalBench (HallusionBench)、MMMU (MMMU VAL),Avg. 表示所有 9 个基准测试的平均性能。∆ 表示强化学习相对于基础模型 Qwen2.5-VL-7B 获得的相对性能提升。最佳结果以粗体突出显示,次佳结果以下划线标出。
Scaling 实验:数据规模带来的持续增益。研究者们进一步探究了拼图数据规模对性能的影响。当训练数据从 0 扩展至 16K 时:拼图任务准确率从 22.0% → 82.8%;HRBench4K 准确率提升 +2.0%;RealWorldQA 提升 +1.8%。表明 AGILE 的训练在数据量扩增下持续有效。由于拼图环境可自动生成,AGILE 的数据扩展几乎零成本、无限扩容,为多模态 RL 提供了可持续的自监督范式。
图 3:(左图)训练数据规模的影响。左侧 y 轴表示 HRBench4K 和 RealWorldQA 的准确率,右侧 y 轴表示拼图任务的准确率。(右图)与常规 QA 数据的比较,在两种实验设置中,样本总数始终保持在 20K。
与常规 QA 数据的对比实验:研究者们替换 20K 常规 QA 数据中的其中 10K 为拼图数据,发现模型可以表现出更好的性能。这说明拼图任务提供了更强的结构感知与监督信号。这一发现凸显了拼图任务在缓解多模态强化学习数据稀缺方面的潜力,并为推进多模态模型开发开辟了一个充满前景的新方向。
AGILE = 交互式拼图代理 + 自监督 RL,在无需额外人工标注的前提下,持续提升 VLMs 的感知与推理能力。它证明了「交互式拼图代理任务」作为突破数据瓶颈、强化 VLMs 的可行性和自监督强化学习范式的潜力。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2025-10-20 15:47:00
在金融、医疗等高度敏感的应用场景中,拜占庭鲁棒联邦学习(BRFL)能够有效避免因数据集中存储而导致的隐私泄露风险,同时防止恶意客户端对模型训练的攻击。然而,即使是在模型更新的过程中,信息泄露的威胁仍然无法完全规避。为了解决这一问题,全同态加密(FHE)技术通过在密文状态下进行安全计算,展现出保护隐私信息的巨大潜力。
然而,FHE 的计算效率始终是其最大的瓶颈,尤其在面对高复杂度操作(如排序、聚合)时,计算开销会随着客户端数量和数据规模的增加呈指数级增长,极大地限制了其在实际场景中的应用。
针对这一挑战,香港中文大学 AIoT 实验室联合重庆大学、香港城市大学等高校和企业,首次将全同态加密(FHE)与拜占庭鲁棒联邦学习(BRFL)深度融合,提出了全新的 Lancelot 框架。该框架实现了在加密状态下的鲁棒聚合计算,算法优化和硬件加速设计为其高效性提供了保障,有效解决了传统 FHE 计算开销高、复杂聚合规则支持不足以及隐私保护与鲁棒性难以兼顾的问题。
这项研究已发表在《Nature Machine Intelligence》上。
论文链接:https://www.nature.com/articles/s42256-025-01107-6
创新点概览
1.掩码式加密排序解决全同态加密难点
在拜占庭鲁棒联邦学习(BRFL)中,全同态加密(FHE)面临无法直接对客户端上传的模型参数进行距离计算和排序的挑战,为解决这一问题,Lancelot 提出了一种由客户端、服务器和密钥生成中心(KGC)协作的加密计算框架(见下图 1),并创新性地引入了「掩码式加密排序(Masked-based Encrypted Sorting)」机制。该机制的主要流程包括:
由服务器计算加密状态下的模型间距离,无需解密;
将距离发送至可信的密钥生成中心(KGC)进行解密和排序,生成加密掩码矩阵;
服务器根据掩码选择可信客户端模型并完成聚合,全程不暴露任何明文信息或排序结果。
该机制在严格安全约束下实现了鲁棒聚合所需的排序逻辑,突破了 FHE 应用在复杂 FL 系统中的最大障碍。
图 1 Lancelot 系统架构:模型训练、排序、聚合全过程均在加密状态下完成
2.融合密码学优化 FHE 计算效率
尽管全同态加密(FHE)在隐私保护方面具有显著优势,但其高昂的计算开销一直是限制其实际应用的主要瓶颈。Lancelot 从底层实现入手,对密文计算进行了深入优化:通过改进密文的成对乘法策略,大幅降低了排序和聚合操作中对乘法深度的依赖;优化多项式矩阵运算,显著减少复杂计算的资源消耗;同时对密文操作(如加法和乘法)进行高效实现,显著降低了训练过程中密文计算的延迟。
密码学优化如下:
Lazy Relinearization:将多个重线性化操作合并,每轮仅执行一次 relinearization,有效减少乘法后密文尺寸的扩展。
Dynamic Hoisting:针对加密轮转中的模提升操作,引入并行化计算结构,实现旋转操作的批量并行处理,显著提升整体吞吐率。
3.硬件优化提速训练过程
本文具体分析了基于 FHE 的 BRFL 系统中计算开销的主要来源,并针对 Lancelot 进行了硬件部署优化设计,有效减少了协作过程中不必要的计算负担,从而显著加速了训练过程。
硬件部署优化如下:
构建了 GPU 原生的同态加密矩阵计算库,将密集型 FHE 计算任务从 CPU 转移至 GPU;
利用 CUDA 并行内核,加速执行距离计算、掩码处理和模型聚合等关键环节;
在实际测试中,单轮训练时间从数小时缩短至数分钟,相较当前最优 FHE 平台 OpenFHE,性能提升超过 20 倍。
这一优化大幅提高了基于 FHE 的 BRFL 系统的实际可用性,为其在复杂场景中的应用奠定了坚实基础。
图 2 在 MNIST、CIFAR-10 等数据集上,Lancelot 显著优于现有 FHE 方案(如 OpenFHE),达成 20 倍以上提速。
总结与展望
Lancelot 框架通有效解决了全同态加密在复杂联邦学习场景中的性能与安全瓶颈,为隐私计算和鲁棒 AI 模型的实际部署提供了全新解决方案。Lancelot 不仅支持多种联邦鲁棒聚合算法,还可与差分隐私机制集成,满足 GDPR、HIPAA 等严格合规要求。在医学图像诊断、癌症检测等实际医疗场景中的实验显示,Lancelot 能在保持诊断准确率的前提下彻底杜绝信息泄露,为 AI + 医疗的可信计算奠定基础。
此外,研究还进一步分析了 Lancelot 在 GPU 资源使用、密钥安全性(采用 Noise Flooding 防御 FHE 密钥恢复攻击)、大规模部署中的通信与计算效率等方面的综合性能,为未来扩展至生物信息、金融风控等领域提供了理论基础和工程实践经验。
本文第一作者为蒋思阳,香港中文大学博士生,指导导师为邢国良教授,ACM 和 IEEE 会士,担任 CUHK AIoT 实验室主任,美国 NSF CAREER Award 和香港中文大学杰出研究奖获得者。共同通讯作者为邢国良及马川,重庆大学计算机学院副教授。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]