一张商业海报,对设计师来说可能是半天工作;对百万中小商家来说,却可能是一道迈不过去的门槛。外包一张专业海报,少则数百、多则数千元;临时促销要求分钟级交付,传统设计流水线却要1到3天;好不容易批量生产出来,质量又参差不齐——这是美团平台上数百万商家每天都在面对的真实困境。AIGC 给了我们一个新的答案,但「生成一张看起来还行的图」和「生成一张真正可用的商业海报」之间,横亘着精准文字渲染、和谐版式布局、多任务统一支持、质量可量化评估等多项相互交织的技术挑战。过去两年,美团智能创作团队围绕这一问题,构建了覆盖「能生成、能编辑、能评判」的完整技术体系:
三者形成「生成-编辑-评判」的技术闭环,相互支撑、持续自我进化。目前三项工作均已全部开源于 MeiGen-AI 仓库,并在美团外卖套餐图生成、品牌 IP 袋鼠团团、点评信息流治理等多个真实业务场景中完成落地。本文将系统拆解这套技术体系的核心思路、关键创新与实战经验。
美团连接数百万商家与数亿消费者,海报作为核心视觉营销载体,贯穿商家日常运营全场景。然而,百万商家普遍面临四重困境:
AIGC 为上述问题提供了新思路,但高质量海报生成远非简单的文生图任务,面临五大相互交织的技术挑战。
挑战一:精准的文字渲染
海报文字要求"零容错"——任何错误、缺失或模糊都导致整张海报不可用。主流扩散模型在多行文字、中文字符和小字号文本上仍有明显短板,中文场景下难度尤甚。
挑战二:和谐的版式布局
优秀海报遵循对比、重复、对齐、亲密性等设计原则,这种"设计感"难以规则化,更多依赖对大量优秀作品的隐式学习,是一个开放性难题。
挑战三:统一的美学风格
色彩和谐、视觉层次、品牌调性等多维度共同构成美学判断,且不同行业标准迥异:餐饮要"食欲感",美妆要"精致感",科技要"未来感"。模型需在保持整体美学水准的同时适配多样化风格需求。
挑战四:多任务场景的统一
真实设计需求横跨"局部编辑"(文字排版叠加、局部填充)和"全局创作"(风格迁移、版式重组)两大范畴,如何在单一模型中同时支持所有场景,是模型设计和训练策略上的重大挑战。
挑战五:质量评估的可量化
现有图像质量指标(FID、IS 等)无法捕捉海报特有的排版质量、文字准确性和设计规范性,而人工评估成本高昂且难以规模化。我们需要一套既能驱动模型优化(作为 RL 奖励信号),又能承担线上质检的自动化评估体系。
面对上述挑战,我们团队围绕海报生成构建了一套完整的技术体系,覆盖基础模型能力提升、多任务统一模型融合和质量评估模型三大核心环节,形成了"能生成、能编辑、能评判"的技术闭环。
三者相互支撑、协同进化:评估驱动生成优化,生成拓展编辑边界,编辑反哺评估标准,共同构成一个持续自我进化的后训练系统。相关工作已产出三篇顶级学术会议论文,并全部开源于MeiGen-AI仓库。
我们的海报生成技术体系遵循一个清晰的演进路径:

各层相互支撑:PosterCraft 奠定端到端生成基础;PosterOmni 在此之上拓展至多任务统一编辑;质量评估层构建"双线并行"体系——营销海报结构化面向线上存量海报,提供构图、配色、氛围感的结构化解析与美学评分;PosterReward 面向 AI 生成内容,提供偏好评估信号,既驱动生成模型持续进化(RL 奖励函数),也承担工业化生产的质检把关。
过去的海报生成方法大多采用模块化设计——先由视觉语言模型规划布局,再将文字叠加到单独生成的背景上。这种流水线方案存在根本性缺陷:美学一致性难以保证,视觉质量受限于各模块的短板拼接。
PosterCraft 的核心思路是:摒弃模块化流水线,让模型端到端地自由探索视觉连贯的设计组合。渐进式的组件级改进不足以带来美学层面的质的飞跃,需要一套统一框架来协同优化文字、视觉和版式。
PosterCraft 设计了四阶段训练流程,每个阶段针对一个关键瓶颈:

阶段一:大规模文字渲染优化
构建 Text-Render-2M 数据集(200 万样本,涵盖多样文字内容、大小、位置和旋转角度)。通过 Flow Matching 微调,显著提升文字渲染准确率,有效解决基础模型常见的文字缺失、重复和错误问题。

阶段二:高质量海报微调 + 区域感知校准
构建 HQ-Poster-100K,经多级管线筛选超过 10 万张高质量海报。关键创新是区域感知校准(Region-Aware Calibration)机制,对不同区域差异化加权:非文字区域(1.0)、主要文字区域(0.6)、次要文字区域(0.2),在保持文字准确的同时更注重整体艺术性。
阶段三:美学-文本强化学习
构建 Poster-Preference-100K:对每个 prompt 生成 5 张海报,用 HPSv2 打分结合 Gemini 验证文字准确性,筛选出 6000 个高质量偏好对。采用 Best-of-N 偏好优化(DPO),让模型学习色彩和谐、版式平衡等高阶美学偏好。
阶段四:视觉-语言反馈精炼
构建 Poster-Reflect-120K:对每个 prompt 生成 6 张海报,由 Gemini 选择最优并生成结构化反馈建议。利用 InternVL-3-8B 微调为 VLM 评论家,在推理时提供迭代式反馈优化。
PosterCraft 在文字召回率、F-score 和准确率上显著超越所有开源基线,接近 SOTA 闭源商业系统(如 Gemini 2.0-Flash-Gen)的水平,证明了统一端到端框架在海报生成任务上的巨大潜力。

不少 AI 海报生成方法将输入设定为文本提示(Text-to-Poster),但真实设计场景中,更常见的起点是一张参考图、旧版海报或产品主视觉——设计目标不是完全重做,而是在保留核心主体的基础上完成扩图、补全、比例调整、风格迁移和版式重组。
PosterOmni 的核心定位:
A unified open model for versatile multi-task image/poster-to-poster generation.
它通过一个统一的开源模型覆盖多类设计需求,既能处理局部编辑,也能完成风格重塑和版式重构——更接近一个"基于参考稿工作的智能设计助手",而非"编辑模块 + 生成模块"的简单拼接。

PosterOmni 将 image/poster-to-poster 场景中的常见需求整理为 6 类任务,统一由一个模型完成:

这些能力共同对应了一个真实的设计流程:

多任务统一建模的核心难点在于任务间的相互干扰:局部编辑强调像素级一致性和自然过渡,全局创作则关注风格抽象和大幅度重构。直接混合训练容易导致模型"什么都会一点",但整体不稳定。
PosterOmni 采用"数据—蒸馏—奖励"闭环:
构建 PosterOmni-200K,形成完整数据闭环:创意描述生成 → 候选图生成 → 多模态筛选 → 任务配对整理。
(1)提示词与基础图生成:贴近真实设计 brief
组合主体/品类/场景/风格标签,借助 VLM(GPT、Qwen3)扩展为带版式约束的结构化描述,再用强 T2I 模型(Qwen-Image 等)渲染候选图,并过滤主体缺失、文字崩坏等不合格样本。
(2)多模态过滤:噪声控制是合成数据的真正瓶颈
对于合成数据而言,真正的瓶颈往往不在数量,而在噪声控制。我们设计了一套分层过滤机制:
(3)六类任务配对构建
基于经过过滤的"文本→海报"基础数据,进一步构造六类 image/poster-to-poster 训练任务。每一类任务对应一个模块化的数据生成器:
最终覆盖商品、美食、活动/旅行、自然、教育、娱乐六大海报主题,产出超过 20 万个高质量配对样本。

如果直接把六类任务混在一起联合训练,最容易出现的问题就是任务冲突:局部任务强调像素对齐与细节保真,全局任务则更关注构图重组与风格抽象,两者在同一个参数空间中往往会互相拉扯。为了解决这个问题,PosterOmni 采用:先训练专家,再蒸馏成统一学生模型。
(1)专家训练:
同时加入辅助文本渲染训练信号,保证文字可读性。
(2)蒸馏到单一学生:PosterOmni-SFT
最终的统一模型不是简单做"参数拼接",而是训练一个学生网络去逼近专家模型的速度场/预测行为。整体损失由两部分组成:
L_total = L_text_render (辅助文本渲染损失,保证文字稳定清晰)
+ λ · L_distill (任务蒸馏损失,复现专家输出)
PosterOmni-SFT 同时具备"局部精修的稳定性"和"全局创作的生成性",不再依赖多个模型串联。

SFT 使模型"会做",但难以进一步学会"做得更美观"。我们训练统一奖励模型 ,同时输出通用审美质量与任务完成度的综合分数。
偏好数据构建: PosterOmni-SFT 生成多个候选,Gemini-2.5-Pro 初筛后由标注者选优。关键创新是 negative-pair 策略:将"输入参考图"记为 rejected、"编辑后输出"记为 chosen,显式强化"有效修改本身有价值"的认知,防止模型在 layout/style 任务中直接拷贝参考图投机。
模型结构: 基于 Qwen3-VL 编码器 + 轻量 MLP head,编码"视觉质量 + 指令 + 任务类型",采用 Bradley-Terry 目标优化排序损失 。最终, 学到的不只是"什么更好看",还有"对这个任务来说什么算做对、什么算偷懒"。
沿用 DiffusionNFT 思路,在正向扩散过程中直接优化,用对比式 Diffusion Loss 将速度预测器推向高奖励行为:从旧策略 构造隐式正/负策略,用奖励 对目标加权,同时做归一化以稳定训练尺度。
将 DiffusionNFT 适配到 image-to-poster 条件输入(输入图 + 指令 + 任务类型),在统一机制下同时处理局部编辑和全局创作。
与通用 VLM 奖励的关键区别:通用 VLM 打分不理解 poster 任务的完成标准,容易出现"看起来像但任务没做对"的投机解。 给出 task-aware 分数,使 RL 优化方向不仅是"更好看",也是"更像完成了这个任务"。
PosterOmni-Bench 是首个面向多任务设计场景的统一测试基准:
这个 Benchmark 测的不是"能不能生成一张图",而是"能不能像设计师一样完成海报修改与再设计"。
定量结果:六项任务全面领先
在 PosterOmni-Bench 上对比主流开源方法(Qwen-Image-Edit、FLUX.1 Kontext、BAGEL、UniWorld-V2 等)及闭源系统(Seedream 系列):

定性对比:学风格/学布局 ≠ 直接 copy
Style-driven 的常见失败:很多 baseline 会把参考图的局部元素直接"贴"过来。PosterOmni 更偏向学习配色、材质感、字体气质等"风格本质",再迁移到新主体上。
Rescale / Layout-driven 的常见失败:很多系统只做裁剪/拉伸。PosterOmni 更像在做"改比例→重排版":标题层级、留白、元素间距随之调整,主体也更稳定。

海报评估是整个技术体系的"质量守门人",沿两条互补路线展开——核心差异不在于处理对象,而在于质量信号的来源方式:
两者共同构成"存量评估 + 增量优化"的完整评估体系。

营销海报是"人工制作"的信息载体,具有明确的信息要素和规则搭配,简单的整图美学评分存在显著局限。
我们提出营销海报图像结构化解析方案:将海报从多维度拆解分析,把视觉信息转换为规范化的结构化描述,并输出各维度量化美学评分。整套方案围绕三大核心维度展开:排版构图、色系搭配、氛围风格。

营销海报设计遵循页面排版四大基础原则:对比、重复、对齐、亲密性。要理解海报构图的好坏,首先需要对海报内容元素做精准解析。
内容定位算法
构建营销海报内容定位模型(准确率 90%+),定位 12 种常见元素:
文案、价格、修饰、卡通动漫、美团Logo、其他Logo、人像、美团IP、红包、菜品、商品
模型对任意输入的海报图,返回各元素在图中的位置坐标及对应类别,覆盖不同类型、不同尺寸的营销海报。

构图美学评价算法
基于元素定位结果,通过 CNN 回归模型拟合设计师主观评价,输出量化构图美学分数:
算法可判断海报构图手法(上下/左右/居中构图等),并评估主体占比、布局紧凑度、画面留白等维度。

色彩是营销海报传达情感的重要介质。不同业务类型适配不同的色系——粉色系营造浪漫/女生氛围,绿色系迎合健康环保调性,黑色系打造科技感或高端奢华风格。
主色系识别算法
模型准确率96.2%,支持识别 11 种色系:
粉色系、绿色系、黑色系、白色系、橙黄系、蓝色系、银灰系、红色系、紫色系、棕色系、多色系
同时输出各色系置信度,对多色系海报也有良好理解能力。

色彩解析算法
支持 12 种基础颜色的占比识别,以及基于 HSV 色彩空间的冷暖色调判断,为色彩和谐度评估提供基础数据。

色彩美学评价
将色彩美学拆解为色彩饱和度和颜色和谐度两个维度,通过深度学习拟合设计师主观评价,输出量化色彩美学分值。

一张优秀的营销海报需要告别千篇一律的模板感,让消费者感受到身临其境的独特氛围——这也是海报从"能看"到"吸引人"的关键跃迁。
风格识别算法
模型准确率91.50%,支持识别 12 种常见海报风格:
节日、卡通、简洁、多彩、科技、柔美、素雅、促销、撞色、实拍、标准、其他
海报风格与文案/商品内容无关,由海报模板及装饰元素营造的整体氛围感决定。

在构图、色彩、氛围感等主观维度,以及清晰度、分辨率等客观维度的基础上,综合输出整体美学评分,基本拟合设计师的主观评价标准。

PosterReward 是首个专门面向海报质量评估的奖励模型,集成结构布局、文字渲染准确性和美学表达三个维度的统一评分能力。现有通用奖励模型主要关注全局图像美学,忽略了海报特有的排版质量和文字渲染维度,加之领域偏好数据极度稀缺,生成海报评估长期是制约生成质量提升的核心瓶颈。PosterReward 的评估维度继承了结构化评估的实践经验——构图、色彩、整体美学在两套方案中形成概念对齐与技术递进。

高质量偏好数据是训练奖励模型的基石。我们设计了一套自动化偏好数据构建管线:
数据来源:Seedream 3.0、Seedream 4.0 和 Qwen-Image-Lightning 生成的海报池(覆盖影视类和非影视类两大场景)。
级联式过滤:
最终多模型验证:四个开源模型(CLIP、DINOv3、HPSv3、GLM-4.5V)和三个闭源模型(Gemini-2.5-Flash-Lite、Gemini-2.5-Pro、GPT-5)进行多维度共识判定,最终产出 7万高质量海报偏好对,覆盖文字渲染、布局设计、美学价值、指令一致性等多个维度。

PosterReward 采用四阶段级联训练策略:
阶段一:联合监督微调(Joint SFT) 双任务并行——单图分析 + 配对比较,使用 24.6万 单图分析样本 + 16万 配对偏好样本微调 Qwen3-VL-8B。
阶段二:联合拒绝采样微调(Joint RSFT) 每个 prompt 采样三个回答,由 Gemini-2.5-Flash-Lite 选择最高质量响应精炼。
阶段三:评分模块训练(Score Module Training) 训练判别式评分模块(Qwen3-VL-8B + 两层 MLP),采用 Bradley-Terry 损失优化。
阶段四:强化学习精炼(GRPO) 以冻结的评分模块为奖励函数,通过 GRPO 对分析模块进行强化学习微调。
为适应不同应用场景,PosterReward 提供三种变体:

我们发布了两个评测基准:PosterRewardBench(Basic + Advanced 两个难度级别,评估奖励模型偏好判断准确性)和 PosterBench(评估文生图模型的海报生成能力)。
在 PosterRewardBench-Advanced 上,PosterReward 达到 86.0% 准确率,远超现有基线(大多在 40%–53% 之间)。PosterReward-Pairwise 在 pairwise 评测中保持强竞争力,位置偏置更小,平衡式数据构造和顺序交换策略有效提升了判断稳定性。


回顾整个评估体系的建设路径,可以看到一条清晰的技术演进线:

结构化评估积累的维度定义经验(构图、色彩、氛围感)为 PosterReward 的多维度分析模块提供了领域知识参照;PosterReward 的端到端学习能力则克服了传统结构化评估在泛化性和可优化性上的瓶颈。两者的融合是未来评估体系演进的方向。
整个技术体系并非独立存在的几块工作,而是构成了一个自我进化的后训练系统:

实际案例 1:与美团设计师合作上线美团品牌IP(PosterCraft生成能力)
生图 prompt(下左):给我设计一张袋鼠团团的大寒的节日节气海报。

生图 prompt(上右):袋鼠团团三维C4D风格,2026年马年新年主视觉,整体节日氛围浓厚,主色调为红色与金色。画面中央是袋鼠团团骑着白马(红色的马鞍,无马缰绳,马蹄上有金和红穗子配饰点缀,呼应生肖主题,活力精神的马年生肖,),面带开心、喜庆的表情,角色主体有柔和的轮廓光,氛围强,作为画面核心主体。画面中点缀烟花、红灯笼等新年元素。背景为中国唐代风格的古建筑群,具有浓厚的东方传统节日氛围。整体画面呈现热闹、喜庆、隆重的新年庆祝场景。主标题: “马年大吉”顶部居中,毛笔创意字体金色,笔触流畅设计感强,大师字体,副标题:“Happy New Year 2026”主标题下面。
实际案例 2:图生商品海报(PosterOmni 的主体保持能力)

我们通过 PosterCraft、PosterOmni 和 PosterReward 三项工作,构建了覆盖"基础生成能力 → 多任务统一融合 → 精准质量评估"的完整技术体系,三项工作全部开源,期待推动海报/图形设计生成领域的共同发展。
未来,我们将继续探索:
从效率到效能,从"能用"到"好用",AIGC 海报生成正在重新定义百万商家的创意生产方式。
AI 视频的进化速度突飞猛进。是否想过有一天能真正走进这些由 AI 生成的世界里,亲自感受一下?
像这样,在月球上自由漫步,是什么感觉?它们是真的理解了世界,还是仅仅在模仿视频?目前的模型距离这个目标还有多远?
为了彻底搞清这个问题,美团 LongCat 团队提出了 WBench,它是首个面向交互式视频世界模型的系统性多轮评测基准。它就像一台“CT扫描仪”,能精准定位当前世界模型在从“被动观看”到“主动交互”的过程中,到底卡在了哪里。
我们用 WBench 对 20 个前沿模型(包括 Kling 3.0、HY-World 1.5、Genie 3 等)进行了全面"扫描",最核心的发现可以总结为以下几点:
能得出这些结论,得益于 WBench 的核心设计。我们认为,一个强大的世界模型评测框架,应包含四大核心要素:
世界模型评测框架 = 世界定义 (World Definition) + 指令集 (Instruction Set) + 统一交互接口 (Unified Interaction Interface) + 评测套件 (Evaluation Suite)。

WBench 正是基于这一理念构建的,下图完整展示了它的设计蓝图:

WBench 包含 289 个测试案例和 1058 个交互轮次,覆盖了丰富的世界定义和指令集。

你可以让 AI 在充满未来感的城市中穿梭,也可以让它置身于一幅流动的油画里。


你不仅可以选择成为游戏中的主角,以第三人称视角掌控一切;还可以化身第一人称,身临其境地探索世界。


有了舞台,还需要丰富的“剧本”。WBench 设计了导航、主体动作、事件编辑和视角切换这四种核心交互方式,它们可以像搭积木一样自由组合,形成一个复杂的多轮任务。
比如,除了常规的移动(导航),你还可以让角色完成特定动作(主体动作)。
甚至改变整个环境(事件编辑)。
最酷的是,你还可以在不同视角间无缝切换(视角切换),比如从第一人称视角瞬间切换到第三人称视角。
通过这种“舞台”与“剧本”分离的设计,WBench 实现了对视频质量、设定遵循度、交互遵循度、一致性、物理真实性这五个维度的精准测量。我们为每个指标都设计了严谨的计算方法,更多关于 NavScore、Gated Spatial Consistency 等硬核指标的实现细节,欢迎访问我们的项目主页。
WBench 不仅给出了结论,更用数据揭示了这些问题的根源。从具体模型表现来看,普通用户最关心的“谁最强”这个问题,答案是“看情况”。

这张相关性矩阵图非常直观。导航那一列/行,与其他所有维度(如视频质量 Qual、一致性 Cons)的相关系数都接近于零。
这说明,当前模型在学习渲染一个好看的世界时,并没有顺便学会如何在其中可控地移动。究其原因,是因为导航能力依赖于一个独立的、专门的"空间状态表示"能力,而其他能力(如画质、语义理解)则更多依赖于模型的通用生成先验。
换句话说,模型"知道"世界长什么样,但并不"理解"自己在世界中的位置和方向。


这张图展示了模型在连续交互中的能力衰减情况。导航曲线的"雪崩式"下跌清晰可见,从第一轮到第四轮及以后,分数下降了 33 点。这有力地证明了位姿误差逐轮累积是当前迭代式生成范式的结构性缺陷。
分析还发现,不同的世界设定会带来结构性的难度差异。例如:第一人称视角让导航更容易(z=+1.0),但保持场景设定更难;动物主体(z=-1.9)因其复杂的动态性,对模型挑战最大。

WBench 不仅是一个评测工具,更代表了研究范式的一次重要演进。通过与同类基准的对比可以看出,WBench 是目前唯一一个真正统一的评测基准。
它不仅同时覆盖了开放域、双视角、四种交互类型和多轮闭环评测,更重要的是,它还首次实现了对不同输入范式模型的统一评测。无论模型是接收文本指令、相机位姿,还是离散的键盘按键,WBench 都能通过其统一交互接口进行公平评估。
这打破了不同技术流派之间的壁垒,让所有"选手"都能在同一个"赛场"上竞技。

至关重要的是,WBench 的自动评分结果与 400 名人类标注者的偏好判断高度一致(Spearman ρ ≥ 0.94),证明了这把"标尺"的准确性和可靠性。

WBench 的提出,算是我们向真正的"交互世界"迈出的一小步尝试。它清晰地揭示了当前技术的边界。我们希望它能成为交互式世界模型走向系统化评测的一个起点,激发更多后续研究,推动世界模型的发展。
WBench 已开源,欢迎所有世界模型来跑分。
ACL(Annual Meeting of the Association for Computational Linguistics)是计算语言学和自然语言处理(NLP)领域的国际顶级学术会议。自 1962 年创办以来,ACL 已成为 NLP 领域规模最大、影响力最高的学术盛会,汇聚了来自全球学术界和工业界的顶尖研究者。
本文解读了被 ACL 顶会收录的其中 6 篇论文,技术方向覆盖大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化、生成式推荐等领域,欢迎大家一起交流学习。
CoreCodeBench:通过细粒度仓库级任务解耦代码智能
论文下载:PDF

论文简介: 本论文提出了 CoreCodeBench,一种面向大语言模型编程能力的细粒度评测基准。该基准利用 COREPIPE 框架,从 12 个 Python 开源库自动生成 1,524 个结构化任务,涵盖开发、修复、测试驱动开发等多种软件工程场景,有效区分不同认知负载并动态调整任务复杂度。实验表明,其有效性达 78.55%,显著优于现有方法,揭示了模型在不同任务类型上的能力错配现象。CoreCodeBench 还支持多任务组合评测,模拟真实开发环境,具备高自动化、强鲁棒性和可复现性,为代码智能评测提供了更全面、精准的框架。
SOP-Maze:评估大语言模型在复杂业务标准操作流程上的表现
论文下载:PDF

论文简介: 随着大模型越来越多地被用作各领域的智能体,现有的评测大多关注它们遵循指令、做决策的能力,但真实业务场景往往涉及复杂的标准操作流程(SOP),而这方面的能力评估还没有被充分探索。为填补这一空白,研究者基于真实业务数据构建了 SOP-Maze,包含来自 23 个复杂 SOP 场景的 397 个实例和 3422 个子任务。
论文把 SOP 任务分成两大类:「侧根系统」(LRS)代表选项众多、需要精准选择的宽广型任务;「主根系统」(HRS)则强调带有复杂分支的深度逻辑推理。
实验结果显示,几乎所有最先进的模型在 SOP-Maze 上都表现吃力。作者归纳出三类主要错误:一是「路线盲区」(难以遵循流程);二是「对话脆弱性」(无法处理真实对话中的细微之处);三是「计算错误」(在复杂语境下的时间或算术推理出错)。
简单来说,这是一个聚焦「模型能不能真正照着复杂业务流程办事」的评测,既考验广度也考验深度,结果表明当前模型在这方面还有明显短板。
AMO-Bench:大语言模型在高中数学竞赛中仍面临挑战
论文下载:PDF

论文简介: 本文提出 AMO-Bench,一个包含 50 道人工命题的极高难度数学推理基准。鉴于顶尖大模型在 AIME 等现有竞赛上性能趋于饱和,本基准确保:
对 26 款大模型的评测显示,最强模型准确率仅 52.4%,多数不足 40%。尽管增加「测试时计算」展现出良好的扩展潜力,大模型推理能力仍有巨大提升空间。
思维的进化:通过推理动态分析追踪大语言模型的过度思考
论文下载:PDF

论文简介: 论文研究大语言模型长链推理中的过度思考现象,分析模型在答案已经形成后为何仍继续生成冗余 thinking。论文从两类 reasoning dynamics 入手:一是 thinking 长度与 content 长度之间的补偿关系,二是语义表示从探索到收敛的轨迹变化。
基于这些现象,论文提出实例级 Reasoning Completion Point(RCP),用于区分答案形成前的有效探索和答案稳定后的冗余延伸,并进一步设计 RCP 检测器,在 AIME、GPQA 等任务上减少生成 token,同时基本保持模型准确率。
MASPO:统一梯度利用、概率质量和信号可靠性以实现鲁棒且样本高效的大语言模型推理
论文下载:PDF

论文简介: MASPO 提出了一种面向大模型推理后训练的强化学习优化方案。它在 RLVR(可验证奖励的强化学习)场景下,旨在解决现有 GRPO 等方法在训练稳定性和样本效率上的不足。现有方法依赖固定、对称的硬截断信任域,与 token 长尾分布、稀疏奖励及正负样本可靠性差异不匹配。
为此,MASPO 提出三大创新:
实验证明,MASPO 在多个数学推理基准和不同模型规模上,相比基线取得了更优的 Avg@32 与 Pass@32 表现,展现出更好的鲁棒性和可扩展性。
基于分解式隐式推理的生成式推荐
论文下载:PDF

论文简介: 在生成式推荐任务中,现有的隐式推理方法通常采用单一隐向量来表征用户意图,这难以捕捉用户偏好中固有的多维性。
本文提出 FLR,将隐式推理分解为多个语义解耦的偏好因子,并引入轻量级多因子注意力模块,在隐式思维空间中进行多维推理。进一步提出 FLR-GRPO,利用噪声注入与无噪声组内对比实现稳定对齐。在 Amazon 数据集上,FLR 相比最强基线 LatentR3 平均提升 3.2%,其中 Games 子集提升达 10.26%,实现了隐式推理的语义透明化与性能提升。
美团正式开源 LongCat-Video-Avatar 1.5,作为一款从开源 SOTA 迈向商业级应用的数字人视频模型。在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面跃升。LongCat-Video-Avatar 1.5 即便在复杂商业场景里,也能稳定、自然地输出高质量内容,让数字人视频生成从彩排室的完美演练,走向千人千面的真实舞台。
为了让数字人"更稳定、更自然"地动起来,我们在以下三方面实现能力升级:
开源链接
在音频特征提取环节,我们将编码器从 Wav2Vec2 升级为 Whisper-large。更大的参数量和更丰富的多语言先验,让模型能够更细致地捕捉音素变化、发音节奏和多语言韵律,准确理解"每一刻应该如何开口"。这一升级同时提升了唇形同步与全身时序稳定性——面部表情、头部姿态、肩颈和肢体动作与语音更自然地协同,大幅减少了长视频中的抖动、跳帧、画面冻结和身份漂移。
综合评测中,LongCat-Video-Avatar 1.5 的自然度、真实感和稳定性均优于部分头部闭源模型,基础生成能力满足商用需求。
商业场景中数字人形态多样(真人、虚拟偶像、动漫角色甚至动物),要求模型具备强开放域泛化能力。数据质量直接决定生成上限,为此我们构建了一套多阶段数据处理流程:

同时,我们专门构建了三类增强数据来应对虚拟人生成的典型难点:
这套数据体系为模型在复杂场景中的稳定输出奠定了坚实基础。
在高质量数据的基础上,我们进一步针对手部稳定性和动作连续性进行专项优化。引入 GRPO(Group Relative Policy Optimization) 进行人类偏好对齐,将奖励信号细化到逐帧层面,精准修正动作不连贯、手部变形、短时结构崩塌及表情与语音不匹配等局部问题。
针对图像到视频和视频续写任务,我们还加入首帧手部检测机制,优先提高含可见手部样本的训练比例,显著缓解手部畸变。得益于此,模型在电商直播、产品展示、教学演示等场景中的自然度与稳定性得到进一步提升。
商业级数字人不仅要"像",还要"快"。推理成本降不下来,再好的效果也只能待在实验室里。
LongCat-Video-Avatar 1.5 采用 DMD(Distribution Matching Distillation)蒸馏,将原本 50 步的生成过程压缩到 8 步。同时,我们用一个共享基础模型 + 多个 LoRA 适配器替代传统三模型并行的方案,大幅降低显存开销。
实际测试中,实现约 15 倍推理效率提升,生成 10 秒视频仅需约 1 分钟。
我们基于 EvalTalker 构建了综合评测基准,覆盖新闻、教育、娱乐、商业等场景,并按音频(语速、情绪)和视觉(人数、姿态、遮挡)设置不同难度。由 770 名评估者完成 13,240 条主观评分,并由 10 名领域专家进行结构化质量分析。


在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上,LongCat‑Video‑Avatar 1.5 的雷达图面积处于领先水平,其在画面物理合理性、时间稳定性、身份一致性和音视频协调等方面表现更均衡。在用户偏好方面,LongCat-Video-Avatar 1.5 相比 Kling Avatar 2.0 胜率 65.9%,相比 OmniHuman‑1.5 胜率 61.1%,相比 HeyGen 胜率 54.3%,整体优于其他商业系统。

在面部-身体同步和唇形同步方面,LongCat-Video-Avatar 1.5 同样取得最佳表现。面部-身体同步问题率为 5.1%,唇形同步问题率为 29.8%,均低于其他对比模型,说明模型在说话人的音频、唇形、表情和动作的整体协同上更加自然。
整体来看,LongCat-Video-Avatar 1.5 在效率提升的同时,仍保持了高质量的生成能力。不仅在单人场景的自然度和真实感上保持 SOTA 表现,也在多人互动、长时序稳定性、物理合理性和音视频协调性等关键维度上展现出更强的商用潜力。
LongCat-Video-Avatar 1.5 的开源,不只是模型版本的更新,更是面向开发者和创作者的邀请。
数字人视频生成正在从"展示效果"走向"真实使用"。在这个过程中,模型会遇到更多开放场景:不同角色、不同语言、不同内容形态,以及更复杂的业务需求。我们希望 LongCat-Video-Avatar 1.5 能成为一个可验证、可改进、可共建的技术基座,让更多人基于它探索数字人视频的真实应用边界。
模型和代码已经开放。欢迎大家在自己的场景中使用、测试和反馈,也期待和社区一起,把开源数字人视频模型继续向前推进。
开源链接
大模型在 AIME、IMO 等高难度竞赛中拿奖拿到手,仿佛已经进化出了“人类最强大脑”。但与此同时,如果你问大模型:“离洗车店只有 50 米,我是开车去还是走路去?”。这些号称满分推理的模型,依然会一本正经地为你规划导航路线。
这种看似知识丰富,但没常识的现象,正是当前大模型评测的死穴:大模型虽然擅长记忆复杂的公式,却常常连一道简单的逻辑题都答不对。
基于此,美团 LongCat 团队正式发布 General 365。我们发现,在对 26 款主流模型的实测中,目前地表最强的 Gemini 3 Pro 准确率仅为 62.8%,而绝大多数模型甚至没能摸到 60 分的及格线。
这份基准将焦点从“学科推理”拓展到“通用推理”,第一次清晰地勾勒出了当前大模型在通用逻辑推理上的真实能力边界。
过去两年,大模型推理评测高度集中在数学、物理、编程等依赖专业知识的任务上,头部模型在各大题库上甚至逼近满分。然而,学科推理得分高,并不等于通用推理强——高分可能源于模型对训练语料的暴力记忆与模式匹配,而非可泛化的逻辑推演能力。现有通用推理基准(如 BBH、BBEH)面临两大瓶颈:任务模板化导致逻辑同质严重,性能饱和导致区分度断崖式下降。
General 365 的设计目标由此明确:将背景知识限定在 K-12 水平,显式解耦推理能力与专业知识,系统地评估模型在日常场景下的通用推理水平。它具备五项核心特征:
要衡量通用推理,首先要明确它包含哪些核心挑战?General 365 将其拆解为八个维度,每道题至少对应其一:

如上图所示,“复杂约束类”题目占比最大,“概率与不确定性类”也包含超 20 道题目,确保了每个维度都有充足的样本支撑。

如图所示,近 70% 的题目同时具备两个或以上的类别标签,这种复合型的推理任务设计更贴近真实世界的逻辑复杂度。
题目质量是评测基准可靠性的根基。General 365 的种子题目全部人工原创,并经难度过滤、多样性扩充、数据后处理、模型扩题与人工审核,最终形成 1460 道高质量题目。为确保多样性经得起检验,团队从以下两个维度进行了验证:


手握这把精心校准的“标尺”,LongCat 团队对 26 款主流大模型展开了全面摸底。

实测结果显示,Gemini 3 Pro 以 62.8% 的成绩艰难夺冠,绝大多数模型则深陷 50%-60% 之间未能触及及格线。值得注意的是,尽管非推理模型整体略逊一筹,但 Qwen 3 Max Instruct 等个别模型依然展现出了亮眼的表现。

将成绩按八大维度分解后,我们清晰地看到,“语义干扰”与“最优策略”成为主要的性能洼地。模型在这两项上的得分普遍比整体准确率低了约 10 个百分点。这不仅暴露出大模型极易被题干中的干扰信息带偏,更凸显了其在多步全局规划能力上的匮乏。

如雷达图所示,不同系列的模型在"隐式信息"等任务上展现出了明显的能力分化。

在关注“答得对不对”的同时,“花了多少算力答对”同样重要。如图所示,Gemini 3 Pro 仅用约 14k tokens 就拿下了最高分,而取得相近准确率的其他模型,其输出长度普遍暴涨至 25k-30k tokens。

General 365 的难度究竟提升了多少?如图09横向对比所示,各大模型在 General 365 上的准确率较 BBH/BBEH 都普遍出现了大幅下降的情况。其中 GPT-5-Thinking 在 BBH 上准确率为 92.0%,在 General 365 上仅为 58.6%。
更重要的是,如下图所示,模型在 General 365 上虽然准确率明显偏低,但平均输出长度却显著增加。这有力证实了其难度来自更深的逻辑链条,而非毫无意义的字数堆砌。

General 365 将推理评测从专业知识依赖中剥离出来,让我们直观地看到了大模型在真实世界的通用推理任务上的短板。General 365 的初衷不是为了在榜单上再多一个 99% 的高分,而是为了寻找那条让模型从“做题机器”走向“人类智慧”的必经之路。毕竟,一个能解出 IMO 难题却回答不出「走路洗车」的模型,还不能被称为真正的智能。
我们诚邀广大社区开发者与研究者加入,共同探寻大模型逻辑进化的下一个奇点。
项目已全面开源,并会持续维护和更新,欢迎体验与探讨:
当团队 90% 以上的代码由 AI 生成,31 万行的复杂业务系统还在高速膨胀,你会发现一个反直觉的事实:AI Coding 不会自动收敛复杂度 —— 没有统一规范的约束,不同人用 AI 写出的代码风格各异,系统反而会加速腐化。
本文记录了我们如何在不停止业务交付的前提下,完成这场重构。在这个过程中,我们积累了三个关键经验,希望这篇实战经验能提供一些可复用的思路。
Agent评测系统长期承载多个核心业务场景,它同时承担了数据生产、流程编排、质量控制与多人协作等复杂能力,业务复杂度和工程复杂度都很高。具体来看,我们面对的复杂性主要体现在三个维度:
当业务进入快速迭代与试错期,上述庞大的业务体量与原有底层架构之间的矛盾就会集中爆发,迫使我们必须启动本次大规模重构。核心动因直指以下三个痛点:
1. 业务模型亟需升级,旧架构无法支撑探索性业务
随着业务交互的丰富度和复杂度增加,旧有数据模型扩展能力不足导致“烟囱式”功能开发,几乎每新增业务形式都需要新增代码来实现。
2. 代码严重腐化,技术债拖垮迭代效率
过去长期采用“按需求建包”的模式开发,代码缺乏合理的工程分层,Controller 等各种复杂逻辑揉在一个包内,形成了严重的“面条式代码”。在 31 万行代码的体量下,这种深度的技术债让日常开发“牵一发而动全身”,导致一线同学开发异常痛苦,交付效率遭遇严重瓶颈。
3. 协作模式风险放大,缺乏规范的 AI Coding 加速系统腐化
一年左右的时间,团队成员规模增至 3 倍,并且团队成员技术背景复杂,涵盖高并发、机器学习离线训练、管理后端开发以及实习生,复杂业务系统开发经验不足。在这样一个高人员流动和跨技术栈的背景下,再叠加 90% 以上代码由 AI 辅助编写这一事实,如果不建立硬性的底层架构规范,不同背景的同学各自用 AI Coding,系统必将以极快的速度产生不可控的腐化与新债。
因此,我们不仅需要工程重构,而且要建设符合 AI Coding 规范的工程重构。规范才可以帮助我们团队消灭旧技术债,规避新技术债。

在需求高压背景下,要梳理技术债面临着一个极其现实的困境:量太大,根本看不完,也看不全。
面对膨胀至 31 万行以上的代码库,试图靠人力逐行阅读来建立全局的可靠认知是不现实的。我们的代码库中同样伴随着典型的高危特征:很多地方文档不全、大量隐式逻辑和历史兼容分支藏在细节里。一个看起来不起眼的接口,背后可能挂着一串极长的调用链。所以,梳理技术债最大的难点,在于人力永远无法在短时间内穷举和穿透这些错综复杂的关联逻辑 —— 单段代码谁都能读懂,但没人能在短时间内把 31 万行的调用链全部穿透。
我们采用的是一种更适合复杂系统的方式:“专家经验定向 + AI 辅助排查”。
不再试图人工遍历,而是由核心开发圈定高危的排查边界,然后把穷举和扫描的脏活累活交给 AI。通过这种方式,我们快速摸清了系统底层的 P0/P1 级技术债(如业务模型缺陷、数据库查询性能隐患、状态管理技术债、索引技术债等)。
这一步中,我们最大的体会是 AI 很适合帮我们把问题“看全”,但什么问题最重要,什么问题值得优先改,还是要由人来判断。具体来说,人负责圈定 P0/P1 级问题和优先级,AI 负责在圈定的方向上做穷举扫描——比如梳理业务模型问题、定位大数据量性能隐患、排查状态管理和索引层面的技术债。
实践下来,这一步的 ROI 很高。我们仅仅投入了有限的资源,就完成了 3 个 P0 技术债和 2 个 P1 技术债的梳理。但最让我们意外的是下面这件事:
短时间内,工程师就利用 AI 辅助精准定位了 10 个隐藏极深、靠肉眼极难发现的性能隐患。 这些隐患藏在复杂的调用链深处,即使是资深工程师逐行阅读也很难穷举到。这在纯人工阅读代码的模式下是几乎不可能的。
这个结果迫使我们重新思考“经验”的定义。过去,“能看全”是资深工程师的核心壁垒 —— 你需要在系统里泡三年,才能建立起对调用链、隐式依赖和历史兼容逻辑的全局感知。但 AI 把“看全”的门槛打到了几乎为零。经验的价值正在从“能看全”转移到“能判断什么重要”——这才是人不可替代的部分。
这一步对我们后面的启发很大,因为只有问题定义清楚了,后面的规范、分层和迁移,才不会做成无源之水。

通过技术债梳理,我们解决了重构哪里的问题,那么接下来要解决的就是“代码应该怎么写”。在全员 90% 代码依赖 AI Coding 的现状下,核心要解决的问题是“如何将一两个用好 AI 的人的经验,高质量泛化到全组”。
在传统研发模式下,开发规范的主要作用是帮助团队协作、Code Review 和新人上手。但当 AI 已经成为主要编码产能后,规范的意义发生了本质变化。大模型生成代码时,会强依赖当前上下文和现有代码模式。如果代码库本身风格混乱、团队对规范理解不一致,AI 不会自动纠偏,反而会把差异进一步放大,导致多人协作下持续产出”千人千面”的代码。因此,AI Coding 时代的研发规范已经升级为约束 AI 产出、阻止系统继续长新债的基础设施,远不止协作建议那么简单。
但只让 AI 遵循规范还不够 —— AI 只能执行输入,不能替代团队形成统一判断。如果团队成员自己没有先对齐分层原则、建模方式和依赖边界,同一份规范就会被不同人解释成不同版本。
这个问题让我们想到了自己的本职工作。我们团队负责 Agent 评测业务,在长期实践中沉淀出一套核心理念:
我们发现,管理 AI Coding 与评测 Agent 的底层逻辑一模一样。 先通过规范拉齐团队的工程标准(人人对齐),再通过 AI Rule 和 Skill 约束大模型的生成结果(人机对齐)。一个做 AI 评测的团队,用评测的思维解决了工程治理问题。
顺序至关重要:先”人人对齐”,再”人机对齐”。 很多团队以为配置好 AI Rule 就完事了,但真正的瓶颈在人,不在工具。团队自己没有统一共识,AI Rule 写得再好也会被不同人解释成不同版本。人的共识是 AI 约束的前提。
我们先调研了业内成熟团队的研发规范,并结合自身流程,沉淀出一套 AI 友好的工程约束,包括工程分层规范、业务域模型规约和仓储层规约。关键一步是没有把规范停留在文档层面,而是将其落地为 always 级别的 AI Rule,用于约束 AI 编码过程,并前置到预 CR 环节,帮助研发在提交前完成基础规范校验。
与此同时,针对最容易产生分歧的领域职责划分问题,我们围绕”编排类”与”能力类”的职责边界进行了组内统一,并将共识沉淀为编码时渐进式加载的 Skill。


我们将过去“按需求建包”的面条式代码,逐步迁移到标准四层架构(Starter / Application / Infrastructure / Common)以及按业务域组织的新结构中。但这次重构的重点,并不只是物理目录的调整,而是借此机会系统性治理历史代码中长期存在的深度耦合问题,尤其是底层数据对象 PO 在全链路中的泄露与上浮。围绕这一问题,我们分三步推进:第一步,补齐业务对象与数据转换层,收口散落各处的转换逻辑;第二步,在 Application 层重建接口契约,严格阻断底层数据对象向上层泄露;第三步,基于新契约修复上游全链路的参数依赖。

这类重构的特点是:改造规则相对明确,但涉及范围极广、重复劳动密集。我们的做法是先由重构主 R 亲自完成两个最复杂包的迁移,在过程中沉淀出一套可让 AI 执行的标准化迁移 SOP。有了这套 SOP,重构工作不再依赖某一个人的经验——团队其他成员只需按照 SOP 指导 AI 完成剩余包的迁移,研发本人聚焦业务语义验收和 Code Review 即可。通过这种“主 R 打样 → SOP 分发 → 全组并行执行”的方式,我们快速完成了十余个核心包的工程结构迁移。

本次重构的深水区。行业里谈重构,通常只有两条路:要么推倒重来,要么申请专项排期。我们走了第三条路 —— 把技术债拆解为业务需求的“顺带动作”,借着迭代渐进式消化,没有申请一天专门的重构时间。
具体做法是将技术债拆解到日常高优需求中。例如,借着某个核心功能迭代需求,顺势设计并落地了全新的业务模型;借着另一个功能升级需求,我们设计了全新的质检业务模型,并在 3 月下旬完成了全量迁移(一举兼容了多条业务链路,以及多视图、多区域的复杂交叉验证)。
这条路的难点在于拆解的精度——哪些业务需求能“顺带”消化哪些技术债,需要逐个判断:既不能让重构拖慢业务交付,也不能让业务需求绕过技术债继续堆新债。最终我在不停止业务交付的前提下,完成了核心数据模型的平滑升级。
1. 建设 AI CR 与 Pre-PR 机制
随着 AI 编码效率飞跃式提升,我们很快遇到了“木桶效应”:Code Review 成了全链路中最拥堵的瓶颈:AI 极大地压缩了编码时间,压力系统性地向下游 CR 环节集中。如果 CR 效率不提升,AI Coding 的提效红利会被 CR 瓶颈吞掉。
我们团队达成的共识:
我们的实践经验:
1、引入 Pre-PR(预审)机制:
2、高阶模型审查低阶模型:使用高配模型作为 Judge Model,审查低阶模型产出的编码。
3、不同厂商模型对抗互相审核:使用不同厂商的模型互相审查对方的编码产出,通过差异化的模型能力形成互补,实测下来 CR 覆盖面更全。

2. 调研取经,建立AI 辅助测试用例生成规范
我们团队 100% 的需求由研发兼任测试(RD as QA)。在探索 AI 辅助自测时,团队自然演化出两条路线:路线 A 让 AI 全自动生成用例,人只做最后把关;路线 B 由人界定测试范围和风险级别,AI 负责代码扫描和用例步骤填充。
实践下来,路线 A 很快暴露出严重的工程问题 —— AI 缺乏全局业务认知,极度依赖 PRD 质量,容易漏掉隐性关联的高危场景,同时发散出大量无价值的边缘用例,反而增加 Review 负担。与专业 QA 团队交流后,我们确认了路线 B(人工主导,AI 辅助)的方向,并沉淀为一套 Human-in-the-loop 的测试 SOP:
| 步骤 | 目标 | 人做什么 | AI做什么 | AI提效点 | |