MoreRSS

site iconMeituan Tech | 美团技术团队修改

美团技术团队的博客
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Meituan Tech | 美团技术团队的 RSS 预览

美团海报生成 AIGC 技术创新与实践

一张商业海报,对设计师来说可能是半天工作;对百万中小商家来说,却可能是一道迈不过去的门槛。外包一张专业海报,少则数百、多则数千元;临时促销要求分钟级交付,传统设计流水线却要1到3天;好不容易批量生产出来,质量又参差不齐——这是美团平台上数百万商家每天都在面对的真实困境。AIGC 给了我们一个新的答案,但「生成一张看起来还行的图」和「生成一张真正可用的商业海报」之间,横亘着精准文字渲染、和谐版式布局、多任务统一支持、质量可量化评估等多项相互交织的技术挑战。过去两年,美团智能创作团队围绕这一问题,构建了覆盖「能生成、能编辑、能评判」的完整技术体系:

  • PosterCraft(ICLR 2026):摒弃模块化流水线,端到端统一优化文字、视觉与版式,在文字渲染准确率上接近Top级别的闭源商业系统;
  • PosterOmni(CVPR 2026):单一模型覆盖扩图、补全、比例调整、风格迁移等六类设计任务,更接近"基于参考稿工作的智能设计助手";
  • PosterReward(CVPR 2026):首个专门面向海报质量评估的奖励模型,在专项评测基准上达到 86% 准确率,远超现有基线,既驱动生成模型持续进化,也承担线上质检把关。

三者形成「生成-编辑-评判」的技术闭环,相互支撑、持续自我进化。目前三项工作均已全部开源于 MeiGen-AI 仓库,并在美团外卖套餐图生成、品牌 IP 袋鼠团团、点评信息流治理等多个真实业务场景中完成落地。本文将系统拆解这套技术体系的核心思路、关键创新与实战经验。

一、背景与挑战

1.1 业务背景:百万商家的"创意平权"难题

美团连接数百万商家与数亿消费者,海报作为核心视觉营销载体,贯穿商家日常运营全场景。然而,百万商家普遍面临四重困境:

  • 设计资源匮乏:专业营销海报外包动辄数百至数千元,中小商家难以承受;即便是大型连锁品牌,面对多城市、多门店的差异化营销需求,设计师团队同样捉襟见肘。
  • 时效性要求苛刻:天气突变、突发热点、临时促销等本地生活场景要求海报"分钟级"交付,传统设计流水线 1–3 天的周期已严重脱节。
  • 内容同质化严重:大量商家依赖固定模板做简单文字替换,海报千篇一律,在信息爆炸时代难以触达消费者,营销转化率持续走低。
  • 批量生产质量失控:从精雕细琢转向规模化生产后,如何保证每张海报达到商业可用标准,成为新的运营难题。

1.2 技术挑战:高质量海报生成的多维难题

AIGC 为上述问题提供了新思路,但高质量海报生成远非简单的文生图任务,面临五大相互交织的技术挑战。

挑战一:精准的文字渲染

海报文字要求"零容错"——任何错误、缺失或模糊都导致整张海报不可用。主流扩散模型在多行文字、中文字符和小字号文本上仍有明显短板,中文场景下难度尤甚。

挑战二:和谐的版式布局

优秀海报遵循对比、重复、对齐、亲密性等设计原则,这种"设计感"难以规则化,更多依赖对大量优秀作品的隐式学习,是一个开放性难题。

挑战三:统一的美学风格

色彩和谐、视觉层次、品牌调性等多维度共同构成美学判断,且不同行业标准迥异:餐饮要"食欲感",美妆要"精致感",科技要"未来感"。模型需在保持整体美学水准的同时适配多样化风格需求。

挑战四:多任务场景的统一

真实设计需求横跨"局部编辑"(文字排版叠加、局部填充)和"全局创作"(风格迁移、版式重组)两大范畴,如何在单一模型中同时支持所有场景,是模型设计和训练策略上的重大挑战。

挑战五:质量评估的可量化

现有图像质量指标(FID、IS 等)无法捕捉海报特有的排版质量、文字准确性和设计规范性,而人工评估成本高昂且难以规模化。我们需要一套既能驱动模型优化(作为 RL 奖励信号),又能承担线上质检的自动化评估体系。

1.3 我们的解法:构建"生成-编辑-评判"技术闭环

面对上述挑战,我们团队围绕海报生成构建了一套完整的技术体系,覆盖基础模型能力提升多任务统一模型融合质量评估模型三大核心环节,形成了"能生成、能编辑、能评判"的技术闭环。

  • 能生成:端到端高美感海报生成,精准文字渲染;技术方案→ PosterCraftCode(ICLR 2026)
  • 能编辑:六大任务统一,局部编辑与全局创作融合;技术方案→ PosterOmniCode(CVPR 2026)
  • 能评判:真实海报结构化解析 + 生成海报偏好评估;技术方案→营销海报结构化 + PosterReward(CVPR 2026)

三者相互支撑、协同进化:评估驱动生成优化,生成拓展编辑边界,编辑反哺评估标准,共同构成一个持续自我进化的后训练系统。相关工作已产出三篇顶级学术会议论文,并全部开源于MeiGen-AI仓库

二、技术体系全景

我们的海报生成技术体系遵循一个清晰的演进路径:

各层相互支撑:PosterCraft 奠定端到端生成基础;PosterOmni 在此之上拓展至多任务统一编辑;质量评估层构建"双线并行"体系——营销海报结构化面向线上存量海报,提供构图、配色、氛围感的结构化解析与美学评分;PosterReward 面向 AI 生成内容,提供偏好评估信号,既驱动生成模型持续进化(RL 奖励函数),也承担工业化生产的质检把关。

三、端到端高美感海报生成:PosterCraft(ICLR 2026)

3.1 核心思想

过去的海报生成方法大多采用模块化设计——先由视觉语言模型规划布局,再将文字叠加到单独生成的背景上。这种流水线方案存在根本性缺陷:美学一致性难以保证,视觉质量受限于各模块的短板拼接。

PosterCraft 的核心思路是:摒弃模块化流水线,让模型端到端地自由探索视觉连贯的设计组合。渐进式的组件级改进不足以带来美学层面的质的飞跃,需要一套统一框架来协同优化文字、视觉和版式。

3.2 四阶段级联优化工作流

PosterCraft 设计了四阶段训练流程,每个阶段针对一个关键瓶颈:

阶段一:大规模文字渲染优化

构建 Text-Render-2M 数据集(200 万样本,涵盖多样文字内容、大小、位置和旋转角度)。通过 Flow Matching 微调,显著提升文字渲染准确率,有效解决基础模型常见的文字缺失、重复和错误问题。

阶段二:高质量海报微调 + 区域感知校准

构建 HQ-Poster-100K,经多级管线筛选超过 10 万张高质量海报。关键创新是区域感知校准(Region-Aware Calibration)机制,对不同区域差异化加权:非文字区域(1.0)、主要文字区域(0.6)、次要文字区域(0.2),在保持文字准确的同时更注重整体艺术性。

阶段三:美学-文本强化学习

构建 Poster-Preference-100K:对每个 prompt 生成 5 张海报,用 HPSv2 打分结合 Gemini 验证文字准确性,筛选出 6000 个高质量偏好对。采用 Best-of-N 偏好优化(DPO),让模型学习色彩和谐、版式平衡等高阶美学偏好。

阶段四:视觉-语言反馈精炼

构建 Poster-Reflect-120K:对每个 prompt 生成 6 张海报,由 Gemini 选择最优并生成结构化反馈建议。利用 InternVL-3-8B 微调为 VLM 评论家,在推理时提供迭代式反馈优化。

3.3 核心成果

PosterCraft 在文字召回率、F-score 和准确率上显著超越所有开源基线,接近 SOTA 闭源商业系统(如 Gemini 2.0-Flash-Gen)的水平,证明了统一端到端框架在海报生成任务上的巨大潜力。

四、多任务统一的图像到海报创作:PosterOmni(CVPR 2026)

4.1 核心思想:从 Text-to-Poster 到 Image-to-Poster

不少 AI 海报生成方法将输入设定为文本提示(Text-to-Poster),但真实设计场景中,更常见的起点是一张参考图、旧版海报或产品主视觉——设计目标不是完全重做,而是在保留核心主体的基础上完成扩图、补全、比例调整、风格迁移和版式重组。

PosterOmni 的核心定位:

A unified open model for versatile multi-task image/poster-to-poster generation.

它通过一个统一的开源模型覆盖多类设计需求,既能处理局部编辑,也能完成风格重塑和版式重构——更接近一个"基于参考稿工作的智能设计助手",而非"编辑模块 + 生成模块"的简单拼接。

4.2 统一"图到海报"范式:单一模型覆盖六类典型设计需求

PosterOmni 将 image/poster-to-poster 场景中的常见需求整理为 6 类任务,统一由一个模型完成:

这些能力共同对应了一个真实的设计流程:

4.3 核心难点:多任务冲突的缓解

多任务统一建模的核心难点在于任务间的相互干扰:局部编辑强调像素级一致性和自然过渡,全局创作则关注风格抽象和大幅度重构。直接混合训练容易导致模型"什么都会一点",但整体不稳定。

PosterOmni 采用"数据—蒸馏—奖励"闭环:

  1. 分别训练局部编辑和全局创作两类专家模型。
  2. 通过任务蒸馏整合为统一学生模型(PosterOmni-SFT)。
  3. 加入统一奖励与强化学习,对齐审美偏好、编辑准确性和指令遵循能力。

4.4 方法论:四阶段训练流水线

阶段 1:自动化数据构建(PosterOmni-200K)

构建 PosterOmni-200K,形成完整数据闭环:创意描述生成 → 候选图生成 → 多模态筛选 → 任务配对整理。

(1)提示词与基础图生成:贴近真实设计 brief

组合主体/品类/场景/风格标签,借助 VLM(GPT、Qwen3)扩展为带版式约束的结构化描述,再用强 T2I 模型(Qwen-Image 等)渲染候选图,并过滤主体缺失、文字崩坏等不合格样本。

(2)多模态过滤:噪声控制是合成数据的真正瓶颈

对于合成数据而言,真正的瓶颈往往不在数量,而在噪声控制。我们设计了一套分层过滤机制:

  • 训练集:PaddleOCR 检查文本可读性 + jina-clip-v2 图文一致性判断。
  • 评测集:额外引入 Gemini 2.5 Flash 评估"任务匹配度"。
  • 结构信号:SAM 2 生成分割区域,为补全、扩图等任务提供 mask 级监督。

(3)六类任务配对构建

基于经过过滤的"文本→海报"基础数据,进一步构造六类 image/poster-to-poster 训练任务。每一类任务对应一个模块化的数据生成器:

  • Extending / Filling:SAM2 构造局部 mask。
  • Rescaling:借鉴 BrushNet,构建"比例变化→内容重排"监督对。
  • ID-driven:PaddleDet 提取主体 + 增强编辑器构造"主体不变、其余可调"样本。
  • Layout / Style-driven:prompt-controlled rerendering,继承布局或风格但不直接复制。

最终覆盖商品、美食、活动/旅行、自然、教育、娱乐六大海报主题,产出超过 20 万个高质量配对样本

阶段 2:任务蒸馏——先拆开学,再合到一起

如果直接把六类任务混在一起联合训练,最容易出现的问题就是任务冲突:局部任务强调像素对齐与细节保真,全局任务则更关注构图重组与风格抽象,两者在同一个参数空间中往往会互相拉扯。为了解决这个问题,PosterOmni 采用:先训练专家,再蒸馏成统一学生模型

(1)专家训练:

  • 局部编辑专家:负责 Extending / Filling / Rescaling / ID-driven,学习主体一致性与可控编辑能力。
  • 全局创作专家:负责 Layout-driven / Style-driven,学习版式组织逻辑与风格协调性。

同时加入辅助文本渲染训练信号,保证文字可读性。

(2)蒸馏到单一学生:PosterOmni-SFT

最终的统一模型不是简单做"参数拼接",而是训练一个学生网络去逼近专家模型的速度场/预测行为。整体损失由两部分组成:

L_total = L_text_render (辅助文本渲染损失,保证文字稳定清晰)
        + λ · L_distill  (任务蒸馏损失,复现专家输出)

PosterOmni-SFT 同时具备"局部精修的稳定性"和"全局创作的生成性",不再依赖多个模型串联。

阶段 3:统一奖励模型训练(RomniR_{omni}

SFT 使模型"会做",但难以进一步学会"做得更美观"。我们训练统一奖励模型 RomniR_{omni}同时输出通用审美质量与任务完成度的综合分数

偏好数据构建: PosterOmni-SFT 生成多个候选,Gemini-2.5-Pro 初筛后由标注者选优。关键创新是 negative-pair 策略:将"输入参考图"记为 rejected、"编辑后输出"记为 chosen,显式强化"有效修改本身有价值"的认知,防止模型在 layout/style 任务中直接拷贝参考图投机。

模型结构: 基于 Qwen3-VL 编码器 + 轻量 MLP head,编码"视觉质量 + 指令 + 任务类型",采用 Bradley-Terry 目标优化排序损失 LBTL_{BT}。最终,RomniR_{omni} 学到的不只是"什么更好看",还有"对这个任务来说什么算做对、什么算偷懒"。

阶段 4:Omni-Edit 强化学习

沿用 DiffusionNFT 思路,在正向扩散过程中直接优化,用对比式 Diffusion Loss 将速度预测器推向高奖励行为:从旧策略 voldv_{old} 构造隐式正/负策略,用奖励 r[0,1]r \in [0,1] 对目标加权,同时做归一化以稳定训练尺度。

将 DiffusionNFT 适配到 image-to-poster 条件输入(输入图 + 指令 + 任务类型),在统一机制下同时处理局部编辑和全局创作。

与通用 VLM 奖励的关键区别:通用 VLM 打分不理解 poster 任务的完成标准,容易出现"看起来像但任务没做对"的投机解。RomniR_{omni} 给出 task-aware 分数,使 RL 优化方向不仅是"更好看",也是"更像完成了这个任务"。

4.5 PosterOmni-Bench:统一评测基准

PosterOmni-Bench 是首个面向多任务设计场景的统一测试基准:

  • 规模:中英文共 1020 条测试指令(540 中文 + 480 英文)。
  • 覆盖:六类核心任务 × 六大海报主题,同时覆盖单/多参考图输入。
  • 评测:Gemini-2.5-Pro 打分,1–5 分范围内综合评价审美质量与任务完成情况。

这个 Benchmark 测的不是"能不能生成一张图",而是"能不能像设计师一样完成海报修改与再设计"。

4.6 实验结果

定量结果:六项任务全面领先

在 PosterOmni-Bench 上对比主流开源方法(Qwen-Image-Edit、FLUX.1 Kontext、BAGEL、UniWorld-V2 等)及闭源系统(Seedream 系列):

  • PosterOmni 在全部六类任务上均取得开源模型最佳表现,整体评分超过部分闭源模型。
  • 提升来自"局部精修 + 全局创作"两类能力的同时增强,而非集中于某一子任务。
  • 相较 Qwen-Image-Edit:在 Layout-driven / Style-driven 上增幅最大,说明模型真正学到了布局与风格背后的生成规则。
  • 相较 Seedream-4.0:整体平均已实现反超,单一开源模型已具备处理复杂设计需求的实际可用性。

定性对比:学风格/学布局 ≠ 直接 copy

Style-driven 的常见失败:很多 baseline 会把参考图的局部元素直接"贴"过来。PosterOmni 更偏向学习配色、材质感、字体气质等"风格本质",再迁移到新主体上。

Rescale / Layout-driven 的常见失败:很多系统只做裁剪/拉伸。PosterOmni 更像在做"改比例→重排版":标题层级、留白、元素间距随之调整,主体也更稳定。

五、海报质量评估:PosterReward(CVPR 2026)

海报评估是整个技术体系的"质量守门人",沿两条互补路线展开——核心差异不在于处理对象,而在于质量信号的来源方式

  • 真实海报的结构化评估:面向线上运营海报素材,以专业设计规范的显式标准为锚,通过多维度结构化解析实现智能质检与规范管理
  • 生成海报的奖励模型:面向 AI 生成内容,以用户主观偏好对齐为驱动,通过端到端学习提供精准质量信号,驱动生成模型持续进化

两者共同构成"存量评估 + 增量优化"的完整评估体系。

5.1 真实海报的结构化评估:营销海报图像结构化

5.1.1 问题定义

营销海报是"人工制作"的信息载体,具有明确的信息要素和规则搭配,简单的整图美学评分存在显著局限。

我们提出营销海报图像结构化解析方案:将海报从多维度拆解分析,把视觉信息转换为规范化的结构化描述,并输出各维度量化美学评分。整套方案围绕三大核心维度展开:排版构图、色系搭配、氛围风格

5.1.2 排版构图解析

营销海报设计遵循页面排版四大基础原则:对比、重复、对齐、亲密性。要理解海报构图的好坏,首先需要对海报内容元素做精准解析。

内容定位算法

构建营销海报内容定位模型(准确率 90%+),定位 12 种常见元素

文案、价格、修饰、卡通动漫、美团Logo、其他Logo、人像、美团IP、红包、菜品、商品

模型对任意输入的海报图,返回各元素在图中的位置坐标及对应类别,覆盖不同类型、不同尺寸的营销海报。

构图美学评价算法

基于元素定位结果,通过 CNN 回归模型拟合设计师主观评价,输出量化构图美学分数:

  • 5 分制构图得分误差仅 0.3794(归一化误差 0.0759)。
  • 90% 的图片得分误差控制在 1 分以内。

算法可判断海报构图手法(上下/左右/居中构图等),并评估主体占比、布局紧凑度、画面留白等维度。

营销海报构图人机打分差异

5.1.3 色系搭配识别

色彩是营销海报传达情感的重要介质。不同业务类型适配不同的色系——粉色系营造浪漫/女生氛围,绿色系迎合健康环保调性,黑色系打造科技感或高端奢华风格。

主色系识别算法

模型准确率96.2%,支持识别 11 种色系

粉色系、绿色系、黑色系、白色系、橙黄系、蓝色系、银灰系、红色系、紫色系、棕色系、多色系

同时输出各色系置信度,对多色系海报也有良好理解能力。

海报主色系识别算法结果展示

色彩解析算法

支持 12 种基础颜色的占比识别,以及基于 HSV 色彩空间的冷暖色调判断,为色彩和谐度评估提供基础数据。

海报色彩解析算法结果展示

色彩美学评价

将色彩美学拆解为色彩饱和度颜色和谐度两个维度,通过深度学习拟合设计师主观评价,输出量化色彩美学分值。

色彩美学评价得分展示

5.1.4 氛围感风格识别

一张优秀的营销海报需要告别千篇一律的模板感,让消费者感受到身临其境的独特氛围——这也是海报从"能看"到"吸引人"的关键跃迁。

风格识别算法

模型准确率91.50%,支持识别 12 种常见海报风格

节日、卡通、简洁、多彩、科技、柔美、素雅、促销、撞色、实拍、标准、其他

海报风格与文案/商品内容无关,由海报模板及装饰元素营造的整体氛围感决定。

营销海报常见风格定义

5.1.5 整体美学综合评价

在构图、色彩、氛围感等主观维度,以及清晰度、分辨率等客观维度的基础上,综合输出整体美学评分,基本拟合设计师的主观评价标准。

海报整体美学得分展示

5.2 生成海报的奖励模型

5.2.1 核心思想

PosterReward 是首个专门面向海报质量评估的奖励模型,集成结构布局、文字渲染准确性和美学表达三个维度的统一评分能力。现有通用奖励模型主要关注全局图像美学,忽略了海报特有的排版质量和文字渲染维度,加之领域偏好数据极度稀缺,生成海报评估长期是制约生成质量提升的核心瓶颈。PosterReward 的评估维度继承了结构化评估的实践经验——构图、色彩、整体美学在两套方案中形成概念对齐与技术递进。

5.2.2 AI 偏好数据集自动构建(Poster-Preference-70K)

高质量偏好数据是训练奖励模型的基石。我们设计了一套自动化偏好数据构建管线:

数据来源:Seedream 3.0、Seedream 4.0 和 Qwen-Image-Lightning 生成的海报池(覆盖影视类和非影视类两大场景)。

级联式过滤

  • 影视海报:HPSv3 初筛 → Kendall's W 一致性筛选 → 轻量闭源模型多轮排序 → 最终多模型验证。
  • 非影视海报:同尺寸过滤 → CLIP+DINOv3 差异性筛选 → 多模型最终验证。

最终多模型验证:四个开源模型(CLIP、DINOv3、HPSv3、GLM-4.5V)和三个闭源模型(Gemini-2.5-Flash-Lite、Gemini-2.5-Pro、GPT-5)进行多维度共识判定,最终产出 7万高质量海报偏好对,覆盖文字渲染、布局设计、美学价值、指令一致性等多个维度。

5.2.3 级联式多阶段训练

PosterReward 采用四阶段级联训练策略:

阶段一:联合监督微调(Joint SFT) 双任务并行——单图分析 + 配对比较,使用 24.6万 单图分析样本 + 16万 配对偏好样本微调 Qwen3-VL-8B。

阶段二:联合拒绝采样微调(Joint RSFT) 每个 prompt 采样三个回答,由 Gemini-2.5-Flash-Lite 选择最高质量响应精炼。

阶段三:评分模块训练(Score Module Training) 训练判别式评分模块(Qwen3-VL-8B + 两层 MLP),采用 Bradley-Terry 损失优化。

阶段四:强化学习精炼(GRPO) 以冻结的评分模块为奖励函数,通过 GRPO 对分析模块进行强化学习微调。

5.2.4 多变体适配

为适应不同应用场景,PosterReward 提供三种变体:

5.2.5 评测基准与核心成果

我们发布了两个评测基准:PosterRewardBench(Basic + Advanced 两个难度级别,评估奖励模型偏好判断准确性)和 PosterBench(评估文生图模型的海报生成能力)。

在 PosterRewardBench-Advanced 上,PosterReward 达到 86.0% 准确率,远超现有基线(大多在 40%–53% 之间)。PosterReward-Pairwise 在 pairwise 评测中保持强竞争力,位置偏置更小,平衡式数据构造和顺序交换策略有效提升了判断稳定性。

5.3 评估体系的演进逻辑

回顾整个评估体系的建设路径,可以看到一条清晰的技术演进线:

结构化评估积累的维度定义经验(构图、色彩、氛围感)为 PosterReward 的多维度分析模块提供了领域知识参照;PosterReward 的端到端学习能力则克服了传统结构化评估在泛化性和可优化性上的瓶颈。两者的融合是未来评估体系演进的方向。

六、技术闭环:各模块如何协同?

整个技术体系并非独立存在的几块工作,而是构成了一个自我进化的后训练系统

  1. PosterCraft 建立端到端生成的基础能力,四阶段工作流已引入奖励模型驱动的美学优化。
  2. PosterOmni 在 PosterCraft 基础上拓展至多任务场景,其统一 Reward 模型是 PosterReward 理念的任务特化。
  3. 营销海报结构化 从构图、配色、氛围感等维度提供可解释的设计规范标准,为生成链路的评估维度提供领域知识支撑。
  4. PosterReward 将设计知识内化为端到端奖励信号,既驱动生成模型持续进化(RL 奖励函数),也承担线上"质检线"的品质保障。

七、落地实践

实际案例 1:与美团设计师合作上线美团品牌IP(PosterCraft生成能力)

生图 prompt(下左):给我设计一张袋鼠团团的大寒的节日节气海报。

生图 prompt(上右):袋鼠团团三维C4D风格,2026年马年新年主视觉,整体节日氛围浓厚,主色调为红色与金色。画面中央是袋鼠团团骑着白马(红色的马鞍,无马缰绳,马蹄上有金和红穗子配饰点缀,呼应生肖主题,活力精神的马年生肖,),面带开心、喜庆的表情,角色主体有柔和的轮廓光,氛围强,作为画面核心主体。画面中点缀烟花、红灯笼等新年元素。背景为中国唐代风格的古建筑群,具有浓厚的东方传统节日氛围。整体画面呈现热闹、喜庆、隆重的新年庆祝场景。主标题: “马年大吉”顶部居中,毛笔创意字体金色,笔触流畅设计感强,大师字体,副标题:“Happy New Year 2026”主标题下面。

实际案例 2:图生商品海报(PosterOmni 的主体保持能力)

八、总结与展望

我们通过 PosterCraft、PosterOmni 和 PosterReward 三项工作,构建了覆盖"基础生成能力 → 多任务统一融合 → 精准质量评估"的完整技术体系,三项工作全部开源,期待推动海报/图形设计生成领域的共同发展。

未来,我们将继续探索:

  • 更强的可控性:支持更精细的设计意图传达。
  • 更广的场景覆盖:从静态海报延伸至动态视觉内容,从零售电商拓展到酒旅、丽人等服务电商场景。
  • 更深的评估维度:将结构化设计规范知识持续注入奖励模型,实现"可解释 + 可优化"的统一。
  • 更紧的产业闭环:让规范标准与奖励模型的 RL 信号深度融合,直接驱动生成模型自我进化。

从效率到效能,从"能用"到"好用",AIGC 海报生成正在重新定义百万商家的创意生产方式。

从月球漫步到赛博都市,WBench 测出了世界模型的边界

AI 视频的进化速度突飞猛进。是否想过有一天能真正走进这些由 AI 生成的世界里,亲自感受一下?

点击查看视频

像这样,在月球上自由漫步,是什么感觉?它们是真的理解了世界,还是仅仅在模仿视频?目前的模型距离这个目标还有多远?

为了彻底搞清这个问题,美团 LongCat 团队提出了 WBench,它是首个面向交互式视频世界模型的系统性多轮评测基准。它就像一台“CT扫描仪”,能精准定位当前世界模型在从“被动观看”到“主动交互”的过程中,到底卡在了哪里。

我们用 WBench 对 20 个前沿模型(包括 Kling 3.0、HY-World 1.5、Genie 3 等)进行了全面"扫描",最核心的发现可以总结为以下几点:

  • 不存在全能模型: 不同模型各有专长,文本驱动模型更擅长理解场景,而专用世界模型在交互控制上突出。
  • 导航是一项独立的技能: 模型的视频画质好坏,和它的导航控制能力基本没关系。
  • 多轮交互是核心难点: 所有模型在连续交互后表现都会变差,导航能力尤其严重,平均分下降了整整 33 点。
  • 开源模型表现出色: 在一些特定能力上,开源模型甚至超过了闭源模型,比如 HY-World 1.5 的导航能力在所有模型里突出。

01 WBench 是如何测出这些问题的?

能得出这些结论,得益于 WBench 的核心设计。我们认为,一个强大的世界模型评测框架,应包含四大核心要素:

世界模型评测框架 = 世界定义 (World Definition) + 指令集 (Instruction Set) + 统一交互接口 (Unified Interaction Interface) + 评测套件 (Evaluation Suite)。

WBench 正是基于这一理念构建的,下图完整展示了它的设计蓝图:

1.1 全面多样的“测试用例”

WBench 包含 289 个测试案例1058 个交互轮次,覆盖了丰富的世界定义和指令集。

你可以让 AI 在充满未来感的城市中穿梭,也可以让它置身于一幅流动的油画里。

你不仅可以选择成为游戏中的主角,以第三人称视角掌控一切;还可以化身第一人称,身临其境地探索世界。

1.2 交互方式:在舞台上设计丰富的“剧本”

有了舞台,还需要丰富的“剧本”。WBench 设计了导航、主体动作、事件编辑和视角切换这四种核心交互方式,它们可以像搭积木一样自由组合,形成一个复杂的多轮任务。

比如,除了常规的移动(导航),你还可以让角色完成特定动作(主体动作)。

甚至改变整个环境(事件编辑)。

最酷的是,你还可以在不同视角间无缝切换(视角切换),比如从第一人称视角瞬间切换到第三人称视角。

通过这种“舞台”与“剧本”分离的设计,WBench 实现了对视频质量、设定遵循度、交互遵循度、一致性、物理真实性这五个维度的精准测量。我们为每个指标都设计了严谨的计算方法,更多关于 NavScore、Gated Spatial Consistency 等硬核指标的实现细节,欢迎访问我们的项目主页

02 核心洞察:用数据看清模型的“短板”

WBench 不仅给出了结论,更用数据揭示了这些问题的根源。从具体模型表现来看,普通用户最关心的“谁最强”这个问题,答案是“看情况”。

  • 如果你追求模型能精准理解你的想法: 那么 Kling 3.0 和 Wan 2.7 无疑是第一梯队。它们在设定遵循度和主体动作/事件编辑上表现突出。
  • 如果你想要丝滑的运镜和精准的导航控制: 那么专用的世界模型优势明显。HY-World 1.5 和 Genie 3 在这一项上遥遥领先,远超文本驱动模型。
  • 在保持一致性上: LingBot-World 表现较为突出,是所有模型里最"稳"的。
  • 在物理真实性方面: Wan 2.7 表现最佳,尤其在因果关系上理解得更深刻。
  • 所有模型都面临一个共同的难题: 视角切换,这是所有交互类型中最难的一项,平均分只有 30.7,说明这块技术还远未成熟。

洞察一:导航能力为何与其他维度“脱钩”?

这张相关性矩阵图非常直观。导航那一列/行,与其他所有维度(如视频质量 Qual、一致性 Cons)的相关系数都接近于零。

这说明,当前模型在学习渲染一个好看的世界时,并没有顺便学会如何在其中可控地移动。究其原因,是因为导航能力依赖于一个独立的、专门的"空间状态表示"能力,而其他能力(如画质、语义理解)则更多依赖于模型的通用生成先验。

换句话说,模型"知道"世界长什么样,但并不"理解"自己在世界中的位置和方向。

洞察二:模型在多轮交互中如何“迷路”?

这张图展示了模型在连续交互中的能力衰减情况。导航曲线的"雪崩式"下跌清晰可见,从第一轮到第四轮及以后,分数下降了 33 点。这有力地证明了位姿误差逐轮累积是当前迭代式生成范式的结构性缺陷。

洞察三:并非所有“世界”都生而平等

分析还发现,不同的世界设定会带来结构性的难度差异。例如:第一人称视角让导航更容易(z=+1.0),但保持场景设定更难;动物主体(z=-1.9)因其复杂的动态性,对模型挑战最大。

03 WBench 的价值:定义下一代评测范式

3.1 范式转移:从“被动生成”到“主动交互”

WBench 不仅是一个评测工具,更代表了研究范式的一次重要演进。通过与同类基准的对比可以看出,WBench 是目前唯一一个真正统一的评测基准

它不仅同时覆盖了开放域、双视角、四种交互类型和多轮闭环评测,更重要的是,它还首次实现了对不同输入范式模型的统一评测。无论模型是接收文本指令、相机位姿,还是离散的键盘按键,WBench 都能通过其统一交互接口进行公平评估。

这打破了不同技术流派之间的壁垒,让所有"选手"都能在同一个"赛场"上竞技。

3.2 可靠性验证:与人类偏好高度对齐

至关重要的是,WBench 的自动评分结果与 400 名人类标注者的偏好判断高度一致(Spearman ρ ≥ 0.94),证明了这把"标尺"的准确性和可靠性。

04 总结与展望

WBench 的提出,算是我们向真正的"交互世界"迈出的一小步尝试。它清晰地揭示了当前技术的边界。我们希望它能成为交互式世界模型走向系统化评测的一个起点,激发更多后续研究,推动世界模型的发展。

WBench 已开源,欢迎所有世界模型来跑分。

ACL 2026美团论文精选:从能力评测到推理优化,构建生成新范式

ACL(Annual Meeting of the Association for Computational Linguistics)是计算语言学和自然语言处理(NLP)领域的国际顶级学术会议。自 1962 年创办以来,ACL 已成为 NLP 领域规模最大、影响力最高的学术盛会,汇聚了来自全球学术界和工业界的顶尖研究者。

本文解读了被 ACL 顶会收录的其中 6 篇论文,技术方向覆盖大模型评测、复杂流程推理、竞赛级数学思维优化、强化学习优化、生成式推荐等领域,欢迎大家一起交流学习。

01 CoreCodeBench: Decoupling Code Intelligence via Fine-Grained Repository-Level Tasks

CoreCodeBench:通过细粒度仓库级任务解耦代码智能

论文下载PDF

论文简介: 本论文提出了 CoreCodeBench,一种面向大语言模型编程能力的细粒度评测基准。该基准利用 COREPIPE 框架,从 12 个 Python 开源库自动生成 1,524 个结构化任务,涵盖开发、修复、测试驱动开发等多种软件工程场景,有效区分不同认知负载并动态调整任务复杂度。实验表明,其有效性达 78.55%,显著优于现有方法,揭示了模型在不同任务类型上的能力错配现象。CoreCodeBench 还支持多任务组合评测,模拟真实开发环境,具备高自动化、强鲁棒性和可复现性,为代码智能评测提供了更全面、精准的框架。

02 SOP-Maze: Evaluating Large Language Models on Complicated Business Standard Operating Procedures

SOP-Maze:评估大语言模型在复杂业务标准操作流程上的表现

论文下载PDF

论文简介: 随着大模型越来越多地被用作各领域的智能体,现有的评测大多关注它们遵循指令、做决策的能力,但真实业务场景往往涉及复杂的标准操作流程(SOP),而这方面的能力评估还没有被充分探索。为填补这一空白,研究者基于真实业务数据构建了 SOP-Maze,包含来自 23 个复杂 SOP 场景的 397 个实例和 3422 个子任务。

论文把 SOP 任务分成两大类:「侧根系统」(LRS)代表选项众多、需要精准选择的宽广型任务;「主根系统」(HRS)则强调带有复杂分支的深度逻辑推理。

实验结果显示,几乎所有最先进的模型在 SOP-Maze 上都表现吃力。作者归纳出三类主要错误:一是「路线盲区」(难以遵循流程);二是「对话脆弱性」(无法处理真实对话中的细微之处);三是「计算错误」(在复杂语境下的时间或算术推理出错)。

简单来说,这是一个聚焦「模型能不能真正照着复杂业务流程办事」的评测,既考验广度也考验深度,结果表明当前模型在这方面还有明显短板。

03 AMO-Bench: Large Language Models Still Struggle in High School Math Competitions

AMO-Bench:大语言模型在高中数学竞赛中仍面临挑战

论文下载PDF

论文简介: 本文提出 AMO-Bench,一个包含 50 道人工命题的极高难度数学推理基准。鉴于顶尖大模型在 AIME 等现有竞赛上性能趋于饱和,本基准确保:

  1. 经专家验证达国际奥数(IMO)或更高难度;
  2. 完全原创以杜绝数据污染;
  3. 仅需最终答案,支持自动评测。

对 26 款大模型的评测显示,最强模型准确率仅 52.4%,多数不足 40%。尽管增加「测试时计算」展现出良好的扩展潜力,大模型推理能力仍有巨大提升空间。

04 The Evolution of Thought: Tracking LLM Overthinking via Reasoning Dynamics Analysis

思维的进化:通过推理动态分析追踪大语言模型的过度思考

论文下载PDF

论文简介: 论文研究大语言模型长链推理中的过度思考现象,分析模型在答案已经形成后为何仍继续生成冗余 thinking。论文从两类 reasoning dynamics 入手:一是 thinking 长度与 content 长度之间的补偿关系,二是语义表示从探索到收敛的轨迹变化。

基于这些现象,论文提出实例级 Reasoning Completion Point(RCP),用于区分答案形成前的有效探索和答案稳定后的冗余延伸,并进一步设计 RCP 检测器,在 AIME、GPQA 等任务上减少生成 token,同时基本保持模型准确率。

05 MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning

MASPO:统一梯度利用、概率质量和信号可靠性以实现鲁棒且样本高效的大语言模型推理

论文下载PDF

论文简介: MASPO 提出了一种面向大模型推理后训练的强化学习优化方案。它在 RLVR(可验证奖励的强化学习)场景下,旨在解决现有 GRPO 等方法在训练稳定性和样本效率上的不足。现有方法依赖固定、对称的硬截断信任域,与 token 长尾分布、稀疏奖励及正负样本可靠性差异不匹配。

为此,MASPO 提出三大创新:

  1. Soft Gaussian Gating 替代硬裁剪,保留有效梯度;
  2. Mass-Adaptive Limiter 根据 token 概率动态调整约束,提升长尾探索;
  3. Asymmetric Risk Controller 区分正负样本可靠性,谨慎处理噪声负样本。

实验证明,MASPO 在多个数学推理基准和不同模型规模上,相比基线取得了更优的 Avg@32 与 Pass@32 表现,展现出更好的鲁棒性和可扩展性。

06 Factorized Latent Reasoning for LLM-based Recommendation

基于分解式隐式推理的生成式推荐

论文下载PDF

论文简介: 在生成式推荐任务中,现有的隐式推理方法通常采用单一隐向量来表征用户意图,这难以捕捉用户偏好中固有的多维性。

本文提出 FLR,将隐式推理分解为多个语义解耦的偏好因子,并引入轻量级多因子注意力模块,在隐式思维空间中进行多维推理。进一步提出 FLR-GRPO,利用噪声注入与无噪声组内对比实现稳定对齐。在 Amazon 数据集上,FLR 相比最强基线 LatentR3 平均提升 3.2%,其中 Games 子集提升达 10.26%,实现了隐式推理的语义透明化与性能提升。

从高拟真到真可用,LongCat-Video-Avatar 1.5 正式开源

美团正式开源 LongCat-Video-Avatar 1.5,作为一款从开源 SOTA 迈向商业级应用的数字人视频模型。在唇形同步、物理合理性、长视频稳定性、多人互动和高效推理上实现了全面跃升。LongCat-Video-Avatar 1.5 即便在复杂商业场景里,也能稳定、自然地输出高质量内容,让数字人视频生成从彩排室的完美演练,走向千人千面的真实舞台。

为了让数字人"更稳定、更自然"地动起来,我们在以下三方面实现能力升级:

  • 基础体验全面商用化:在长句、快语速、歌唱等复杂语音输入下,唇部运动更精准平滑,面部表情、头部姿态和肢体动作更协调,整体表达自然稳定;
  • 支持更丰富的场景:借助高质量数据体系,模型能稳定处理真人、动漫、动物等多类主体,多人对话更加自然且准确区分说话者与聆听者;
  • 推理部署更高效:采用 DMD 蒸馏至 8 步生成,效率提升约 15 倍,更适配规模化应用和真实业务场景。

查看演示视频

开源链接

一、不止于“嘴动”,更有真实的交互力与戏剧感

1.1 音频编码器升级:让口型更精准自然

在音频特征提取环节,我们将编码器从 Wav2Vec2 升级为 Whisper-large。更大的参数量和更丰富的多语言先验,让模型能够更细致地捕捉音素变化、发音节奏和多语言韵律,准确理解"每一刻应该如何开口"。这一升级同时提升了唇形同步与全身时序稳定性——面部表情、头部姿态、肩颈和肢体动作与语音更自然地协同,大幅减少了长视频中的抖动、跳帧、画面冻结和身份漂移。

综合评测中,LongCat-Video-Avatar 1.5 的自然度、真实感和稳定性均优于部分头部闭源模型,基础生成能力满足商用需求

查看演示视频

1.2 高质量数据体系:让模型在复杂场景中应对更自如

商业场景中数字人形态多样(真人、虚拟偶像、动漫角色甚至动物),要求模型具备强开放域泛化能力。数据质量直接决定生成上限,为此我们构建了一套多阶段数据处理流程

  • 离线标注:提取人脸关键点、人物数量、身体构图、音画同步等属性。
  • 在线验证:自动过滤转场、黑帧、闪烁、跳帧等低质量片段。

同时,我们专门构建了三类增强数据来应对虚拟人生成的典型难点:

  • 多人数据:通过主动说话人检测,保留同一时刻只有单一说话人发声的片段,从源头降低多人场景的音画歧义。
  • 静默数据:筛选人物未说话的视频,让模型学习无语音状态下自然的微表情、视线与身体动态,避免非说话角色嘴部乱动。
  • 情绪数据:结合多模态初筛与帧级情绪识别精筛,注入情绪变化过程,使模型更好理解语音、表情与身体反应的关联。

这套数据体系为模型在复杂场景中的稳定输出奠定了坚实基础。

查看演示视频

1.3 逐帧级 GRPO 偏好对齐:让多人交互场景更生动自然

在高质量数据的基础上,我们进一步针对手部稳定性和动作连续性进行专项优化。引入 GRPO(Group Relative Policy Optimization) 进行人类偏好对齐,将奖励信号细化到逐帧层面,精准修正动作不连贯、手部变形、短时结构崩塌及表情与语音不匹配等局部问题。

针对图像到视频和视频续写任务,我们还加入首帧手部检测机制,优先提高含可见手部样本的训练比例,显著缓解手部畸变。得益于此,模型在电商直播、产品展示、教学演示等场景中的自然度与稳定性得到进一步提升。

查看演示视频

1.4 八步生成,效率提升十五倍

商业级数字人不仅要"像",还要"快"。推理成本降不下来,再好的效果也只能待在实验室里。

LongCat-Video-Avatar 1.5 采用 DMD(Distribution Matching Distillation)蒸馏,将原本 50 步的生成过程压缩到 8 步。同时,我们用一个共享基础模型 + 多个 LoRA 适配器替代传统三模型并行的方案,大幅降低显存开销。

实际测试中,实现约 15 倍推理效率提升,生成 10 秒视频仅需约 1 分钟。

二、模型性能:在真实场景中验证模型能力

我们基于 EvalTalker 构建了综合评测基准,覆盖新闻、教育、娱乐、商业等场景,并按音频(语速、情绪)和视觉(人数、姿态、遮挡)设置不同难度。由 770 名评估者完成 13,240 条主观评分,并由 10 名领域专家进行结构化质量分析。

真实场景通测:雷达面积全面领先

在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上,LongCat‑Video‑Avatar 1.5 的雷达图面积处于领先水平,其在画面物理合理性、时间稳定性、身份一致性和音视频协调等方面表现更均衡。在用户偏好方面,LongCat-Video-Avatar 1.5 相比 Kling Avatar 2.0 胜率 65.9%,相比 OmniHuman‑1.5 胜率 61.1%,相比 HeyGen 胜率 54.3%,整体优于其他商业系统。

单人 & 多人场景

  • LongCat-Video-Avatar 1.5 单人场景得分 3.336,显著高于 HeyGen、OmniHuman-1.5 等产品;
  • LongCat-Video-Avatar 1.5 多人场景得分 2.730,大幅领先 InfiniteTalk(2.339),在说话者/聆听者区分上优势明显。

物理合理性与长时序稳定性

  • 在主体变形和背景变形等问题上,主体变形问题率仅为 23.1%,低于所有对比模型;背景变形问题率为 9.4%,整体保持在较低水平。
  • 在画面跳帧、色调误差累积等指标上,LongCat-Video-Avatar 1.5 表现稳定,其中跳帧问题率仅为 0.8%,是所有对比模型中最低,模型在长视频连续生成中能够更好地保持画面流畅性。

音视频协调

在面部-身体同步和唇形同步方面,LongCat-Video-Avatar 1.5 同样取得最佳表现。面部-身体同步问题率为 5.1%,唇形同步问题率为 29.8%,均低于其他对比模型,说明模型在说话人的音频、唇形、表情和动作的整体协同上更加自然。

整体来看,LongCat-Video-Avatar 1.5 在效率提升的同时,仍保持了高质量的生成能力。不仅在单人场景的自然度和真实感上保持 SOTA 表现,也在多人互动、长时序稳定性、物理合理性和音视频协调性等关键维度上展现出更强的商用潜力

三、开源是为了走向更真实的场景

LongCat-Video-Avatar 1.5 的开源,不只是模型版本的更新,更是面向开发者和创作者的邀请。

数字人视频生成正在从"展示效果"走向"真实使用"。在这个过程中,模型会遇到更多开放场景:不同角色、不同语言、不同内容形态,以及更复杂的业务需求。我们希望 LongCat-Video-Avatar 1.5 能成为一个可验证、可改进、可共建的技术基座,让更多人基于它探索数字人视频的真实应用边界。

模型和代码已经开放。欢迎大家在自己的场景中使用、测试和反馈,也期待和社区一起,把开源数字人视频模型继续向前推进。

开源链接

美团 LongCat 开源 General 365:树立推理评测新标尺

大模型在 AIME、IMO 等高难度竞赛中拿奖拿到手,仿佛已经进化出了“人类最强大脑”。但与此同时,如果你问大模型:“离洗车店只有 50 米,我是开车去还是走路去?”。这些号称满分推理的模型,依然会一本正经地为你规划导航路线。

这种看似知识丰富,但没常识的现象,正是当前大模型评测的死穴:大模型虽然擅长记忆复杂的公式,却常常连一道简单的逻辑题都答不对。

基于此,美团 LongCat 团队正式发布 General 365。我们发现,在对 26 款主流模型的实测中,目前地表最强的 Gemini 3 Pro 准确率仅为 62.8%,而绝大多数模型甚至没能摸到 60 分的及格线。

这份基准将焦点从“学科推理”拓展到“通用推理”,第一次清晰地勾勒出了当前大模型在通用逻辑推理上的真实能力边界。

01 研究背景:大模型真的会“思考”吗?

过去两年,大模型推理评测高度集中在数学、物理、编程等依赖专业知识的任务上,头部模型在各大题库上甚至逼近满分。然而,学科推理得分高,并不等于通用推理强——高分可能源于模型对训练语料的暴力记忆与模式匹配,而非可泛化的逻辑推演能力。现有通用推理基准(如 BBH、BBEH)面临两大瓶颈:任务模板化导致逻辑同质严重,性能饱和导致区分度断崖式下降。

General 365 的设计目标由此明确:将背景知识限定在 K-12 水平,显式解耦推理能力与专业知识,系统地评估模型在日常场景下的通用推理水平。它具备五项核心特征:

  • 高多样性:365 道原创种子题目及 1095 个扩展变体,全面覆盖八大挑战类型,避免重复特征与死记硬背;
  • 高挑战性:SOTA 模型在此基准上也仅能勉强及格;
  • 聚焦推理:知识范围严格限定在 K-12,纯粹衡量逻辑推理,而非知识检索;
  • 严格人工质检:全量题目均经过人工审核,覆盖题目设计、推理轨迹与最终答案;
  • 精准评分:采用混合规则与模型的打分方法,人工抽样验证,评分准确率达 99.6%。

02 设计理念:通用推理能力如何被量化?

2.1 八大维度,圈定通用推理的“考纲”

要衡量通用推理,首先要明确它包含哪些核心挑战?General 365 将其拆解为八个维度,每道题至少对应其一:

  • 复杂约束:多条件交织下的全局一致性维护;
  • 分支与枚举:解空间的系统性遍历与边界覆盖;
  • 时空推理:空间关系与时间序列的动态推演;
  • 递归与回溯:假设—验证—推翻的迭代纠错;
  • 语义干扰:跨越认知陷阱,严格遵循题设规则;
  • 隐式信息:从碎片线索推断底层逻辑结构;
  • 最优策略:多路径方案中的效用权衡与规划;
  • 概率与不确定性:不完全信息下的概率推断。

八个类别的题目数量分布

如上图所示,“复杂约束类”题目占比最大,“概率与不确定性类”也包含超 20 道题目,确保了每个维度都有充足的样本支撑。

多标签题目的数量分布

如图所示,近 70% 的题目同时具备两个或以上的类别标签,这种复合型的推理任务设计更贴近真实世界的逻辑复杂度。

2.2 告别模板化,经得起检验的多样性

题目质量是评测基准可靠性的根基。General 365 的种子题目全部人工原创,并经难度过滤、多样性扩充、数据后处理、模型扩题与人工审核,最终形成 1460 道高质量题目。为确保多样性经得起检验,团队从以下两个维度进行了验证:

  • 语义分布:t-SNE 可视化中 General 365 的题目嵌入的分布均匀分散,而 BBH 和 BBEH 均出现明显的聚集现象,暴露了其潜在的逻辑冗余。

三个基准的 t-SNE 语义分布对比

  • 逻辑独立性:由 Gemini 3 Pro 对语义相近的题目对进行推理路径相似度评分(0-5 分),General 365 平均仅得 2.16 分,远低于 BBH 和 BBEH。这意味着在 General 365 中,模型无法再靠"背模板"蒙混过关。

三个基准的推理路径相似度评分分布

03 实验发现:26款模型的能力边界与效率分化

手握这把精心校准的“标尺”,LongCat 团队对 26 款主流大模型展开了全面摸底。

3.1 整体表现:Gemini 3 Pro领跑,仅2款模型“及格”

26 款模型准确率排行

实测结果显示,Gemini 3 Pro 以 62.8% 的成绩艰难夺冠,绝大多数模型则深陷 50%-60% 之间未能触及及格线。值得注意的是,尽管非推理模型整体略逊一筹,但 Qwen 3 Max Instruct 等个别模型依然展现出了亮眼的表现。

3.2 寻根溯源:到底错在哪里?

各模型在八个类别上的准确率明细

将成绩按八大维度分解后,我们清晰地看到,“语义干扰”与“最优策略”成为主要的性能洼地。模型在这两项上的得分普遍比整体准确率低了约 10 个百分点。这不仅暴露出大模型极易被题干中的干扰信息带偏,更凸显了其在多步全局规划能力上的匮乏。

不同模型系列在八个类别上的雷达图

如雷达图所示,不同系列的模型在"隐式信息"等任务上展现出了明显的能力分化。

3.3 谁是真正的“效率之王”

准确率与平均输出 token 长度的关系

在关注“答得对不对”的同时,“花了多少算力答对”同样重要。如图所示,Gemini 3 Pro 仅用约 14k tokens 就拿下了最高分,而取得相近准确率的其他模型,其输出长度普遍暴涨至 25k-30k tokens。

3.4 跨基准对比:General 365的难度含金量

三个基准性能对比

General 365 的难度究竟提升了多少?如图09横向对比所示,各大模型在 General 365 上的准确率较 BBH/BBEH 都普遍出现了大幅下降的情况。其中 GPT-5-Thinking 在 BBH 上准确率为 92.0%,在 General 365 上仅为 58.6%。

更重要的是,如下图所示,模型在 General 365 上虽然准确率明显偏低,但平均输出长度却显著增加。这有力证实了其难度来自更深的逻辑链条,而非毫无意义的字数堆砌。

三个基准上准确率与输出长度的关系

04 结语:通用推理的“深水区”,才刚刚被照亮

General 365 将推理评测从专业知识依赖中剥离出来,让我们直观地看到了大模型在真实世界的通用推理任务上的短板。General 365 的初衷不是为了在榜单上再多一个 99% 的高分,而是为了寻找那条让模型从“做题机器”走向“人类智慧”的必经之路。毕竟,一个能解出 IMO 难题却回答不出「走路洗车」的模型,还不能被称为真正的智能。

我们诚邀广大社区开发者与研究者加入,共同探寻大模型逻辑进化的下一个奇点。

开源链接

项目已全面开源,并会持续维护和更新,欢迎体验与探讨:

用Agent评测思路管理AI Coding —— 31万行代码AI重构的实践

当团队 90% 以上的代码由 AI 生成,31 万行的复杂业务系统还在高速膨胀,你会发现一个反直觉的事实:AI Coding 不会自动收敛复杂度 —— 没有统一规范的约束,不同人用 AI 写出的代码风格各异,系统反而会加速腐化。

本文记录了我们如何在不停止业务交付的前提下,完成这场重构。在这个过程中,我们积累了三个关键经验,希望这篇实战经验能提供一些可复用的思路。

  • 经验一:用Agent评测思路管理AI Coding。我们团队负责 Agent 评测业务,在实践中沉淀出一套核心标准对齐理念:“人人对齐→人机对齐”。我们发现管理 AI Coding 的底层逻辑一模一样 —— 先让团队形成统一共识(人人对齐),再将共识固化为 AI 可执行的约束(人机对齐)。本质上,就是同一套方法论在两个领域的复用。
  • 经验二:AI 正在重新定义“经验”的价值边界。利用 AI 工具,工程师短时间内就发现了 10 个性能隐患——过去需要长期积累才能建立的代码全局感,现在借助 AI,团队中的每个人都能快速具备。经验的价值正在从“能看全”转移到“能判断什么重要”。
  • 经验三:技术债可以像业务需求一样被迭代消化。 行业谈重构,要么推倒重来,要么申请专项。我们给出了第三条路:把技术债拆解为业务需求的“顺带动作”,借着迭代渐进式消化。

一、背景

Agent评测系统长期承载多个核心业务场景,它同时承担了数据生产、流程编排、质量控制与多人协作等复杂能力,业务复杂度和工程复杂度都很高。具体来看,我们面对的复杂性主要体现在三个维度:

  • 业务仍处于探索期,导致需求高度模糊:全行业都在探索 Agent 评测,用户也不了解应该如何评测。这个大背景导致评测的需求又急又模糊。急,希望快速试错;模糊,业务方也不确定这条路是否真的有价值。
  • 庞大且高频的迭代体量:系统从 2025 年 6 月约不足 5 万行代码快速扩展至 31 万行,保持着月均 16 个需求(80% 业务需求 + 20% 技术需求)的高负荷运转。
  • “笛卡尔积”级别的业务场景矩阵:系统底层支持 6 种多模态数据评测,上层构建了多种核心任务视图和精细化业务动作,并配套了十余种质检机制。这些能力交织着多种标签体系与动态分配策略,意味着系统每天都需要稳健处理成百上千种截然不同的复杂业务流组合。

二、为什么要重构?

当业务进入快速迭代与试错期,上述庞大的业务体量与原有底层架构之间的矛盾就会集中爆发,迫使我们必须启动本次大规模重构。核心动因直指以下三个痛点:

1. 业务模型亟需升级,旧架构无法支撑探索性业务

随着业务交互的丰富度和复杂度增加,旧有数据模型扩展能力不足导致“烟囱式”功能开发,几乎每新增业务形式都需要新增代码来实现。

2. 代码严重腐化,技术债拖垮迭代效率

过去长期采用“按需求建包”的模式开发,代码缺乏合理的工程分层,Controller 等各种复杂逻辑揉在一个包内,形成了严重的“面条式代码”。在 31 万行代码的体量下,这种深度的技术债让日常开发“牵一发而动全身”,导致一线同学开发异常痛苦,交付效率遭遇严重瓶颈。

3. 协作模式风险放大,缺乏规范的 AI Coding 加速系统腐化

一年左右的时间,团队成员规模增至 3 倍,并且团队成员技术背景复杂,涵盖高并发、机器学习离线训练、管理后端开发以及实习生,复杂业务系统开发经验不足。在这样一个高人员流动和跨技术栈的背景下,再叠加 90% 以上代码由 AI 辅助编写这一事实,如果不建立硬性的底层架构规范,不同背景的同学各自用 AI Coding,系统必将以极快的速度产生不可控的腐化与新债。

因此,我们不仅需要工程重构,而且要建设符合 AI Coding 规范的工程重构。规范才可以帮助我们团队消灭旧技术债,规避新技术债。

三、重构时间线与执行路径

阶段一:定义问题,借助 AI 梳理技术债(2026 年2月启动)

在需求高压背景下,要梳理技术债面临着一个极其现实的困境:量太大,根本看不完,也看不全

面对膨胀至 31 万行以上的代码库,试图靠人力逐行阅读来建立全局的可靠认知是不现实的。我们的代码库中同样伴随着典型的高危特征:很多地方文档不全、大量隐式逻辑和历史兼容分支藏在细节里。一个看起来不起眼的接口,背后可能挂着一串极长的调用链。所以,梳理技术债最大的难点,在于人力永远无法在短时间内穷举和穿透这些错综复杂的关联逻辑 —— 单段代码谁都能读懂,但没人能在短时间内把 31 万行的调用链全部穿透

我们采用的是一种更适合复杂系统的方式:“专家经验定向 + AI 辅助排查”。

不再试图人工遍历,而是由核心开发圈定高危的排查边界,然后把穷举和扫描的脏活累活交给 AI。通过这种方式,我们快速摸清了系统底层的 P0/P1 级技术债(如业务模型缺陷、数据库查询性能隐患、状态管理技术债、索引技术债等)。

这一步中,我们最大的体会是 AI 很适合帮我们把问题“看全”,但什么问题最重要,什么问题值得优先改,还是要由人来判断。具体来说,人负责圈定 P0/P1 级问题和优先级,AI 负责在圈定的方向上做穷举扫描——比如梳理业务模型问题、定位大数据量性能隐患、排查状态管理和索引层面的技术债。

实践下来,这一步的 ROI 很高。我们仅仅投入了有限的资源,就完成了 3 个 P0 技术债和 2 个 P1 技术债的梳理。但最让我们意外的是下面这件事:

短时间内,工程师就利用 AI 辅助精准定位了 10 个隐藏极深、靠肉眼极难发现的性能隐患。 这些隐患藏在复杂的调用链深处,即使是资深工程师逐行阅读也很难穷举到。这在纯人工阅读代码的模式下是几乎不可能的。

这个结果迫使我们重新思考“经验”的定义。过去,“能看全”是资深工程师的核心壁垒 —— 你需要在系统里泡三年,才能建立起对调用链、隐式依赖和历史兼容逻辑的全局感知。但 AI 把“看全”的门槛打到了几乎为零。经验的价值正在从“能看全”转移到“能判断什么重要”——这才是人不可替代的部分

这一步对我们后面的启发很大,因为只有问题定义清楚了,后面的规范、分层和迁移,才不会做成无源之水。

阶段二:调研并制定 AI 友好的研发规范(2026年2月底完成)

通过技术债梳理,我们解决了重构哪里的问题,那么接下来要解决的就是“代码应该怎么写”。在全员 90% 代码依赖 AI Coding 的现状下,核心要解决的问题是“如何将一两个用好 AI 的人的经验,高质量泛化到全组”。

为什么规范的价值被放大了?

在传统研发模式下,开发规范的主要作用是帮助团队协作、Code Review 和新人上手。但当 AI 已经成为主要编码产能后,规范的意义发生了本质变化。大模型生成代码时,会强依赖当前上下文和现有代码模式。如果代码库本身风格混乱、团队对规范理解不一致,AI 不会自动纠偏,反而会把差异进一步放大,导致多人协作下持续产出”千人千面”的代码。因此,AI Coding 时代的研发规范已经升级为约束 AI 产出、阻止系统继续长新债的基础设施,远不止协作建议那么简单。

用评测 Agent 的方式,管理 AI Coding

但只让 AI 遵循规范还不够 —— AI 只能执行输入,不能替代团队形成统一判断。如果团队成员自己没有先对齐分层原则、建模方式和依赖边界,同一份规范就会被不同人解释成不同版本。

这个问题让我们想到了自己的本职工作。我们团队负责 Agent 评测业务,在长期实践中沉淀出一套核心理念:

  • 标准对齐(人人对齐):需要 1 位强有力的角色拉齐产品、运营、算法、QA 等所有角色的评测标准 —— 1个”独裁者”好过 10 个”民主者”。
  • 人机对齐:评测标准对齐后,通过模型选型和评测指标的优化,实现人机对齐,人机一致率达到基本阈值(例如 90%),才能认为机器的评价可信。

我们发现,管理 AI Coding 与评测 Agent 的底层逻辑一模一样。 先通过规范拉齐团队的工程标准(人人对齐),再通过 AI Rule 和 Skill 约束大模型的生成结果(人机对齐)。一个做 AI 评测的团队,用评测的思维解决了工程治理问题。

顺序至关重要:先”人人对齐”,再”人机对齐”。 很多团队以为配置好 AI Rule 就完事了,但真正的瓶颈在人,不在工具。团队自己没有统一共识,AI Rule 写得再好也会被不同人解释成不同版本。人的共识是 AI 约束的前提。

将规范转化为 AI 的执行约束

我们先调研了业内成熟团队的研发规范,并结合自身流程,沉淀出一套 AI 友好的工程约束,包括工程分层规范、业务域模型规约和仓储层规约。关键一步是没有把规范停留在文档层面,而是将其落地为 always 级别的 AI Rule,用于约束 AI 编码过程,并前置到预 CR 环节,帮助研发在提交前完成基础规范校验。

与此同时,针对最容易产生分歧的领域职责划分问题,我们围绕”编排类”与”能力类”的职责边界进行了组内统一,并将共识沉淀为编码时渐进式加载的 Skill。

阶段三:建立 SOP,“见缝插针”完成渐进式重构(2026年3月- 4月)

Action 1:100% 借助 AI 完成工程分层与解耦重构

我们将过去“按需求建包”的面条式代码,逐步迁移到标准四层架构(Starter / Application / Infrastructure / Common)以及按业务域组织的新结构中。但这次重构的重点,并不只是物理目录的调整,而是借此机会系统性治理历史代码中长期存在的深度耦合问题,尤其是底层数据对象 PO 在全链路中的泄露与上浮。围绕这一问题,我们分三步推进:第一步,补齐业务对象与数据转换层,收口散落各处的转换逻辑;第二步,在 Application 层重建接口契约,严格阻断底层数据对象向上层泄露;第三步,基于新契约修复上游全链路的参数依赖。

这类重构的特点是:改造规则相对明确,但涉及范围极广、重复劳动密集。我们的做法是先由重构主 R 亲自完成两个最复杂包的迁移,在过程中沉淀出一套可让 AI 执行的标准化迁移 SOP。有了这套 SOP,重构工作不再依赖某一个人的经验——团队其他成员只需按照 SOP 指导 AI 完成剩余包的迁移,研发本人聚焦业务语义验收和 Code Review 即可。通过这种“主 R 打样 → SOP 分发 → 全组并行执行”的方式,我们快速完成了十余个核心包的工程结构迁移。

Action 2:零排期重构——借着业务需求“渐进式重构业务模型”

本次重构的深水区。行业里谈重构,通常只有两条路:要么推倒重来,要么申请专项排期。我们走了第三条路 —— 把技术债拆解为业务需求的“顺带动作”,借着迭代渐进式消化,没有申请一天专门的重构时间

具体做法是将技术债拆解到日常高优需求中。例如,借着某个核心功能迭代需求,顺势设计并落地了全新的业务模型;借着另一个功能升级需求,我们设计了全新的质检业务模型,并在 3 月下旬完成了全量迁移(一举兼容了多条业务链路,以及多视图、多区域的复杂交叉验证)。

这条路的难点在于拆解的精度——哪些业务需求能“顺带”消化哪些技术债,需要逐个判断:既不能让重构拖慢业务交付,也不能让业务需求绕过技术债继续堆新债。最终我在不停止业务交付的前提下,完成了核心数据模型的平滑升级。

Action 3:重构质量保证

1. 建设 AI CR 与 Pre-PR 机制

随着 AI 编码效率飞跃式提升,我们很快遇到了“木桶效应”:Code Review 成了全链路中最拥堵的瓶颈:AI 极大地压缩了编码时间,压力系统性地向下游 CR 环节集中。如果 CR 效率不提升,AI Coding 的提效红利会被 CR 瓶颈吞掉

我们团队达成的共识:

  • 人工CR的价值,应该从“你写得对吗?”转变为“我们是否在正确的约束下解决正确的问题?”
  • AI 审查规范类问题,做业务逻辑初筛;
  • 人重点在前置技术方案评审环节把关,Review 最终代码实现是否符合技术方案、代码业务逻辑问题。

我们的实践经验:

1、引入 Pre-PR(预审)机制

  • 提交代码前,要求 RD 必须先用 AI 审查代码进行多轮自查,修复所有 AI 能发现的问题(规范类、Bug类、异常处理、一致性、可扩展性及性能问题等)。
  • 确认通过后,提交标准的 PR 文档(重点说明改动点、影响范围、需重点 Review 的业务逻辑,AI 根据代码改动按模板生成)。
  • 这样 Reviewer 拿到的就是一份“已过滤掉基础规范错误”的高质量代码,只需聚焦核心业务语义,认知负担大幅降低。

2、高阶模型审查低阶模型:使用高配模型作为 Judge Model,审查低阶模型产出的编码。

3、不同厂商模型对抗互相审核:使用不同厂商的模型互相审查对方的编码产出,通过差异化的模型能力形成互补,实测下来 CR 覆盖面更全。

2. 调研取经,建立AI 辅助测试用例生成规范

我们团队 100% 的需求由研发兼任测试(RD as QA)。在探索 AI 辅助自测时,团队自然演化出两条路线:路线 A 让 AI 全自动生成用例,人只做最后把关;路线 B 由人界定测试范围和风险级别,AI 负责代码扫描和用例步骤填充。

实践下来,路线 A 很快暴露出严重的工程问题 —— AI 缺乏全局业务认知,极度依赖 PRD 质量,容易漏掉隐性关联的高危场景,同时发散出大量无价值的边缘用例,反而增加 Review 负担。与专业 QA 团队交流后,我们确认了路线 B(人工主导,AI 辅助)的方向,并沉淀为一套 Human-in-the-loop 的测试 SOP:

| 步骤 | 目标 | 人做什么 | AI做什么 | AI提效点 | |