MoreRSS

site icon52nlp | 我爱自然语言处理修改

一个自然语言处理爱好者的群体博客。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

52nlp | 我爱自然语言处理的 RSS 预览

LongCat-Flash:美团发布的高效MoE大模型,支持智能体任务,推理速度达100 token/秒

2025-09-01 15:23:24

近日,美团 LongCat 团队发布了 LongCat-Flash 模型及技术报告,这是一款总参数量达 5600亿 的混合专家模型(Mixture-of-Experts, MoE),在保持高性能的同时,显著提升了训练与推理效率,尤其擅长处理需要多步推理和工具调用的智能体(Agent)任务

一、核心创新:动态计算与通信优化

1. Zero-Computation Experts(零计算专家)

传统MoE模型中,每个token都会激活固定数量的专家,但LongCat-Flash引入了“零计算专家”机制,允许模型根据上下文重要性动态分配计算资源。简单来说,重要的token会激活更多专家,不重要的则激活较少甚至零计算专家,直接返回输入值,不进行额外计算。

  • 每token激活参数量在 186亿~313亿 之间波动,平均约为 270亿
  • 通过PID控制器动态调节专家偏置,保持计算负载均衡;
  • 在相同计算预算下,相比固定激活策略,验证损失显著降低

2. Shortcut-Connected MoE(快捷连接MoE)

MoE模型在扩展时常遇到通信瓶颈。LongCat-Flash采用ScMoE结构,通过跨层快捷连接,将密集FFN计算与MoE层的通信操作重叠执行,大幅提升训练和推理效率。

  • 训练损失与基线模型几乎一致,不影响模型质量
  • 推理时采用单批次重叠(SBO)调度,理论时间每输出token(TPOT)降低近50%。

二、训练策略:高效扩展与稳定性保障

1. 超参数迁移与模型增长

  • 通过宽度缩放规则,将小模型(宽度768)的最佳超参数迁移到大模型(宽度6144),大幅节省调参成本;
  • 采用模型增长初始化,将训练好的半规模模型堆叠成完整模型,加速收敛并提升最终性能。

2. 多维度稳定性控制

  • 路由器稳定性:监控专家权重相似度和梯度范数比,防止负载均衡损失压制语言建模损失;
  • 激活稳定性:引入隐藏z-loss,抑制异常大幅激活,避免训练中的数值溢出;
  • 优化器稳定性:将Adam的ε设为极小的1e-16,避免梯度二阶矩被淹没。

三、多阶段训练与数据策略

1. 预训练阶段

  • 使用超过20万亿token的多语料数据,涵盖网页、书籍、代码等;
  • 采用两阶段数据混合策略,逐步提升STEM和代码数据的比例至70%;
  • 支持128K长上下文,适用于长文档理解和代码库级任务。

2. 中训练与后训练

  • 中训练:增强推理与代码能力,使用合成数据和知识图谱构建高质量问题;
  • 后训练:针对智能体任务,构建多智能体合成框架,生成高难度、多轮交互的任务数据;
  • 涵盖数学、代码、逻辑推理、指令遵循、长上下文、安全性等多个维度。

四、推理与部署:高吞吐、低延迟

1. 系统级优化

  • 使用多token预测(MTP) 作为推测解码的草案模型,接受率超90%;
  • 采用分层传输分层量化,减少KV缓存传输开销;
  • 支持FP8量化,在几乎不损失精度的情况下提升吞吐量。

2. 实测性能

  • 在H800上推理速度达 100 token/秒,成本低至 $0.7 / 百万输出token
  • 在终端任务(TerminalBench)上表现优异,得分39.51,排名第二;
  • 在自建智能体评测集VitaBench上取得最高分24.30,展现强大复杂任务处理能力。

五、综合评测结果

LongCat-Flash在多项基准测试中表现优异:

  • 通用能力:MMLU 89.71,CEval 90.44,ArenaHard-V2 86.50;
  • 数学推理:MATH500 96.40,AIME25 61.25;
  • 代码生成:HumanEval+ 65.85,TerminalBench 39.51;
  • 智能体工具使用:τ²-Bench 电信场景73.68,VitaBench 24.30;
  • 安全性:在有害内容、犯罪信息、隐私保护等维度表现突出。

六、开源与社区贡献

LongCat-Flash已全面开源,包括模型权重、推理代码和部分训练数据,推动MoE架构、高效训练与智能体研究的进一步发展。

结语

LongCat-Flash不仅在模型架构上实现创新,更在训练策略、系统优化和智能体能力培养方面树立了新的标杆。其高效的推理性能和优秀的任务表现,使其成为业界领先的开源MoE模型之一,有望推动AI智能体在真实场景中的广泛应用。

附美团LongCat-Flash模型技术报告英中对照版,仅供学习参考:

GLM-4.5:三体合一的开源智能体大模型,重新定义AI推理边界

2025-08-11 17:14:58

在追求通用人工智能(AGI)的道路上,智能体能力(Agentic)复杂推理(Reasoning) 和编程能力(Coding) 是衡量大模型综合实力的“黄金三角”。而最新开源的 GLM-4.5 系列,正是以“ARC三位一体”为目标打造的超级模型,以3550亿参数登顶全球开源模型性能前三!


一、核心突破:MoE架构 + 混合推理模式

1. 高能效设计

  • 总参数3550亿,激活参数仅320亿(MoE稀疏激活),计算效率提升3倍
  • 对比:参数量仅为DeepSeek-V3(6710亿)的一半,Kimi-K2(10430亿)的1/3
  • GLM-4.5-Air轻量版:1060亿参数,性能仍超多数百亿级模型

2. 混合推理引擎

markdown

| 推理模式     | 适用场景                  | 技术特点               |
|--------------|---------------------------|------------------------|
| 思考模式     | 数学/科学/多步工具调用    | 长链式思维(CoT)      |
| 直答模式     | 聊天/翻译/简单问答        | 低延迟响应             |

模型可动态切换模式——复杂问题启动深度思考,简单任务秒级回应,兼顾效率与精度。


二、性能屠榜:ARC三项全能冠军

1. 智能体能力(Agentic)

  • TAU-Bench(真实场景工具调用):79.7% 准确率,超越Gemini 2.5 Pro
  • BrowseComp(网页信息检索):26.4%,碾压Claude Opus 4 (18.8%)
  • 创新函数调用模板:用XML标签替代JSON,减少90%转义字符(见图4)

2. 推理能力(Reasoning)

  • AIME 24(国际数学竞赛题):91.0% 正确率,逼近人类奥赛选手水平
  • HLE人类终极考试:14.4% 得分,全球仅4个模型超过10%
  • 动态温度采样RL:防止强化学习后期陷入局部最优

3. 编程能力(Coding)

  • SWE-bench Verified(真实GitHub issue修复):64.2% 通过率
  • Terminal-Bench(终端操作):37.5%,超越Claude Sonnet 4
  • CC-Bench实测:工具调用成功率90.6%,碾压Qwen3-Coder(77.1%)

🔥 综合ARC 12项基准:全球排名第3(开源第1),智能体单项排名第2!


三、训练黑科技:三阶段锻造ARC铁三角

1. 预训练数据革命

  • 23T高质量Token,分层处理网页/代码/学术数据
  • 创新过滤技术:
    • SemDedup:语义去重剔除模板网页
    • 质量分桶:高分数据重复3.2个epoch,强化核心知识

2. 中训练(Mid-Training)

  • 128K上下文支持:从4K→128K分阶段扩展,RoPE频率调整至100万
  • 跨文件代码训练:拼接同仓库代码文件,学习项目级依赖

3. 后训练专家蒸馏

python

# 专家迭代流程
1. 分领域训练专家模型:推理专家 + 智能体专家 + 通用聊天专家
2. 自我蒸馏融合:将专家能力注入统一模型
3. 混合强化学习:
   - 推理RL:难度分级课程(先易后难)
   - 智能体RL:轨迹自蒸馏迭代
   - 病理RL:根治语言混合/格式错误

四、真实场景碾压性体验

1. 逻辑推理

  • 新构建高难度逻辑题库:62.0分,持平DeepSeek-R1(62.1)
  • 动态规划/归纳推理错误率降低37%

2. 颠覆级翻译能力

  • 理解网络梗+文化符号:如“yyds”→“永远的神”
  • 上下文推理:输入:“三花公主驾到,速来围观”
    输出:“The Calico Princess has arrived! Come and see!”
    (准确识别“三花”指三花猫)
  • 人类评分1.71,碾压专业翻译模型Qwen-MT(0.38)

3. 终端编程实测

  • Docker隔离环境测试52个开发任务:
    • VS Claude Sonnet 4:40.4%胜率 + 50%平局
    • VS Kimi K2:53.9%胜率,工具调用效率高4.4%

五、开源意义:中国大模型的新里程碑

💡 开发者提示:轻量版GLM-4.5-Air在106B参数下实现接近GPT-4的性能,推理成本降低60%!


结语:ARC时代的新王者

GLM-4.5不仅证明了中国团队在MoE架构和强化学习领域的顶尖实力,更首次实现智能体-推理-编程三大能力的统一。其开源将加速AI智能体的实际落地——从自动代码修复到网页信息挖掘,一个真正“会思考、能执行”的AI时代正在到来。

项目地址https://github.com/zai-org/GLM-4.5
在线体验https://z.ai (支持128K上下文对话)


延伸阅读:报告中隐藏的4大技术彩蛋👇

  1. 推理RL黑科技:Token加权损失函数,比序列级loss收敛快2倍
  2. 长轨迹智能体训练:异步RL框架Slime,支持Docker环境高并发
  3. 安全防护:SafetyBench综合得分89.9,伦理类问题94.3分
  4. 中文场景优化:文本生成得分9.0,逻辑推理9.27(满分10)

本文数据均来自GLM-4.5技术报告,更多技术细节参见原始论文,附英中技术报告对照版,仅供学习参考:

OpenAI gpt-oss-120b & gpt-oss-20b 模型技术报告英中对照版

2025-08-06 11:26:54

OpenAI 发布的 gpt-oss-120b 与 gpt-oss-20b 是首批面向开源社区、同时强调“强推理+工具调用”的权重开放模型。以下从性能、安全与生态三个维度给出简评。

  1. 性能:小模型也能打
    • 在 AIME、GPQA 等硬核数学与科学基准上,120b 版本已逼近 o4-mini,20b 版本虽参数少 6 倍,却仍能超过 o3-mini,验证了 MoE+可变推理长度方案的有效性。
    • 代码与工具场景是最大亮点:Codeforces Elo 2463(120b, high)、SWE-Bench Verified 62.4%,均刷新同尺寸开源模型纪录;τ-Bench 也展示了可插拔函数调用的工程友好性。
    • 多语言与医疗问答表现亮眼,HealthBench 上 120b 几乎对齐 o3,给低成本、本地部署的健康咨询带来想象空间。
  2. 安全:开放权重带来的“双刃剑”
    • 默认对齐:沿用 deliberative alignment 与 instruction hierarchy,标准违禁内容评估与 o4-mini 持平,Production Benchmarks 甚至略优,显示基础拒答能力已达标。
    • 风险上限:OpenAI 罕见地公开了“红队微调”实验——在内部用最强 RL 栈对 120b 进行生物与网络安全方向的对抗训练,结果仍“未触及 High 风险阈值”,并邀请 METR、SecureBio 等外部专家复核,为社区提供了可信的风险锚点。
    • 责任下沉:模型卡反复提醒“开源≠无责”,开发者需自行叠加内容审核、CoT 过滤与 prompt 防护,这对本地化部署者提出了更高工程要求。
  3. 生态与启示
    • Apache 2.0 许可证 + 量化到 4.25bit,使 120b 可单机 80 GB GPU 运行,20b 仅需 16 GB,门槛大幅降低。
    • Harmony chat format 与配套工具链(浏览、Python、开发者函数)提供了近似 ChatGPT 的代理体验,降低了二次开发成本。
    • 作为首批“官方开源推理模型”,其评估框架(生物、网络、AI 自我改进)与透明红队方法论,或将成为后续开源大模型的安全基线。


gpt-oss-120b/20b 的最大价值不仅是“性能对标闭源”,更在于示范了“开放权重+开放评估+可控风险”的新范式:让社区既能拿到可商用、可微调的强模型,又能复现其风险测量与缓解路径。对于追求本地私有化、成本敏感或需深度定制的开发者,这套组合极具吸引力;对于行业而言,它把“安全可验证的开源大模型”向前推进了一大步。

以下是该技术报告英中对照版,仅供学习参考:

从万亿参数到智能体:Kimi K2 技术报告全景解读

2025-07-22 14:13:07

1. 引言:为什么 K2 值得关注?

过去两年,大模型的竞争主线从「参数规模」转向「推理深度」再到今天的「智能体能力(Agentic Intelligence)」。
Kimi K2 用一份 32 页的技术报告告诉我们:开源模型第一次在「非思考」条件下,同时在代码、数学、工具调用三大硬核基准上逼近甚至超越 Claude-4 系列
更重要的是,K2 用一套完全开源的权重 + 数据管线 + RL 框架,把「智能体」这件事做到了可复现、可扩展、可落地。


2. 模型概览:一图看懂 K2 的「身材」

维度 K2 DeepSeek-V3 Llama4-Maverick
总参数 1.04 T (MoE) 671 B (MoE) 400 B (MoE)
激活参数 32 B 37 B 17 B
专家数 384 256 -
注意力头 64 (节省 83% FLOPs) 128 128
上下文 128 k 128 k 128 k

一句话总结:在同样 32 B 激活量的前提下,K2 把专家数提升到 384,用更稀疏但更大的「外脑」换来单位 FLOP 的更高收益。


3. 预训练:如何让 15.5 T tokens 发挥 30 T 的价值?

3.1 MuonClip:让 Muon 优化器告别“爆炸”

  • 痛点:Muon 比 AdamW token-efficient,但 attention logit 容易爆炸到 1000+,导致 loss spike。
  • 解法:提出 QK-Clip —— 每 head 实时检测 logit 最大值,仅在必要时对 Query/Key 权重做 per-head 的轻量级缩放。
  • 效果
    • 全 15.5 T tokens 零 loss spike
    • 小模型 ablation 显示对收敛几乎无损(<0.1%)。

3.2 数据炼金术:把一条知识变十条

  • Knowledge 重写管线
    • 风格多样化 prompt → chunk-wise 自回归改写 → 语义一致性校验;
    • SimpleQA 实验:10 次改写 + 1 次 epoch 比 10 次重复 epoch 绝对提升 5.2%
  • Math 重写管线
    • 引入 SwallowMath 的「学习笔记」格式,把数学证明改写成步骤化讲解;
    • 多语言翻译进一步扩量 30%。

结论:在高质量数据见顶的时代,「可控改写」成为新的数据杠杆。


4. 后训练:合成 20 k 工具 + RL 闭环

4.1 超级工具工厂:从 API 文档到可执行沙箱

K2 构建了一个三层合成管线:

  1. Tool Spec 生成
    • 3000+ 真实 MCP 工具(GitHub 爬取)
    • 20000+ LLM 合成工具,覆盖金融、机器人、软件等 50+ 领域
  2. Agent & Task 生成
    • Agent persona 随机采样(性格、知识、可用工具)
    • Rubric-based task:每个任务带成功标准、期望调用链
  3. Trajectory 生成与过滤
    • 多轮用户模拟 + 沙箱执行
    • LLM Judge 打分,保留 success rate > 90% 轨迹
    • Hybrid 沙箱:真实 Docker/K8s 环境 + 模拟器,兼顾规模与真实性

最终产出 数十万条 高质量工具调用轨迹,用于 SFT。

4.2 RL 框架:从可验证奖励到自我批判

  • Verifiable Rewards Gym
    • 数学、逻辑、代码、指令遵循等 100+ 任务,全部可自动判题;
    • 采用 预算控制:按任务类型设定 max_tokens,防止 RL 把答案写成小说。
  • Self-Critique Rubric Reward
    • 用 K2 自己当裁判, pairwise 比较回答;
    • 裁判模型在可验证任务上持续微调,保证主观打分不失焦。
  • 算法细节
    • 沿用 K1.5 的 policy gradient,新增:
      • PTX loss:混入高质量预训练数据,防止灾难遗忘;
      • Temperature decay:训练后期降温,提升稳定性。

5. 评估:把「非思考」做到极致

5.1 代码与软件工程

基准 K2 开源 SOTA 闭源标杆
SWE-bench Verified (multi-attempt) 71.6 % 54.6 % (DeepSeek) 80.2 % (Claude-4-Sonnet)
SWE-bench Multilingual 47.3 % 25.8 % 51.0 %
LiveCodeBench v6 53.7 % 46.9 % 48.5 %

解读:在「不思考」设定下,K2 把开源天花板抬高了 10~20 个百分点,与 Claude-4 的差距缩小到 5 个百分点以内。

5.2 工具调用

  • τ²-Bench (平均):66.1 %,领先第二名 17+ 点
  • ACEBench:76.5 %,超过 GPT-4.1(74.5 %)

5.3 数学 & STEM

  • AIME 2024:69.6 %(开源第一,领先 DeepSeek 10 点)
  • GPQA-Diamond:75.1 %(开源第一)

5.4 LMSYS Arena 真实用户投票

  • 7 月 17 日榜:开源第 1,全榜第 5,3 k+ 人类盲投

6. 系统:1 T 模型如何 30 秒热启动?

  • Colocated RL 架构
    • 训练 / 推理双引擎同节点,GPU 0 等待;
    • Checkpoint Engine 分布式广播,30 s 完成 1 T 参数更新。
  • Pipeline 优化
    • EP=16 最小专家并行,降低 all-to-all 开销;
    • FP8 缓存 + CPU offload,单机 30 GB 显存即可跑 128 k 上下文。

7. 局限与展望

作者坦诚当前局限:

  • 复杂推理下容易“话痨”,导致输出截断;
  • 工具定义模糊时误调用;
  • 单轮一次性项目生成成功率仍低于 Agentic 框架。

未来路线图:

  • 工具自省:让模型先判断“需不需要用工具”;
  • 推理-行动融合:把 long-CoT 与工具调用做成统一 token 预算;
  • 端侧轻量化:32 B 激活量已在 4090 可跑,下一步做 8 B/4 B 蒸馏。

8. 写给开发者 & 研究者的三点 takeaway

  1. 数据策略 > 参数魔法:在 1 T 参数以下,「高质量合成 + 重写」仍是提效最快路径。K2 的 rephrasing 代码已开源,可快速迁移到垂直领域。
  2. Agentic 数据管线可复制:工具-任务-轨迹三层抽象 + 混合沙箱,基本覆盖 80% 真实场景。
  3. RL 基础设施进入「工业化」阶段:30 秒热启动、万级并发沙箱、FP8 显存优化,意味着 RL 不再是炼丹,而是可规模化的产品组件。

9. 结语

Kimi K2 用 15.5 T tokens、32 B 激活、1 T 总参数,把「开源模型做不到的事」清单划掉了一大半。
更重要的是,它把「如何训练一个可落地的智能体」拆解成了可复现的配方:

高效优化器 + 合成数据工厂 + 可验证 RL = Agentic Intelligence at scale

接下来,轮到社区去玩出更多花样了。


附录:相关链接

附技术报告英中对照版,仅供学习参考:

解码Google Gemini 2.5:推理、多模态与智能体能力的革命性突破

2025-07-15 11:15:42

近日,Google DeepMind发布了震撼业界的Gemini 2.5系列模型技术报告,标志着大模型技术迈入全新阶段。作为谷歌迄今最强大的AI模型,Gemini 2.5 Pro不仅在传统基准测试中大幅刷新记录,更在长上下文理解复杂推理多模态智能体能力上实现质的飞跃。本文将深度解析这一技术里程碑的核心突破与潜在影响。


一、架构革新:从混合专家到思维引擎

Gemini 2.5系列基于稀疏混合专家模型(MoE) 架构,但进行了关键升级:

  • 动态路由优化:通过改进token到专家的分配策略,计算效率提升40%(相比Gemini 1.5 Pro)
  • 训练稳定性突破:采用分阶段静默数据损坏检测技术,将故障定位时间从小时级缩短至分钟级
  • TPUv5p超算级训练:跨数据中心8960芯片集群同步训练,93.4%时间用于有效计算

最革命性的创新是 “Thinking”机制

# Thinking机制伪代码示例
def generate_response(query):
    thought_tokens = allocate_thinking_budget(query)  # 动态分配计算资源
    for _ in range(thought_tokens):
        internal_state = refine_thought(internal_state, query)  # 迭代推理
    return finalize_response(internal_state)

该机制允许模型在响应前进行数万次前向传播,显著提升复杂问题解决能力。在AIME 2025数学竞赛基准上,思考预算增加使准确率从72%跃升至88%。


二、多模态理解:突破时空限制

Gemini 2.5 Pro实现了前所未有的多模态处理能力:

  • 3小时视频解析:通过视觉token压缩技术(每帧66 token vs 旧版258 token)
  • 跨模态转换:可将讲座视频实时转化为交互式测验应用(Baddepudi et al., 2025)
  • 音频流式处理:支持24种语言的对话式语音交互,情感识别误差降低35%

在VideoMME视频理解基准上,Gemini 2.5 Pro以84.3% 准确率超越GPT 4.1的72%,尤其在时空推理任务(如寻找跨镜头关联事件)上优势显著。


三、智能体生态:从编码到自主决策

报告展示了Gemini作为智能体平台的核心能力:

  • 代码革命:LiveCodeBench得分从30.5%(1.5 Pro)飙升至74.2%,SWE-bench验证任务提升33%
  • Gemini Deep Research:网络研究代理在Humanity's Last Exam基准半年内从7.95%提升至32.4%
  • Pokémon通关案例:在813小时游戏过程中展现长程规划能力,解决包含150步操作的迷宫难题

四、安全与评估的双重挑战

尽管能力飞跃,报告揭示了关键挑战:

  1. 评估范式危机
    • Humanity's Last Exam单题设计成本高达$5000
    • Gemini在Aider Polyglot基准一年内性能提升5倍,传统基准快速饱和
  2. 安全防护创新
    • 自动化红队系统(ART):通过多智能体对抗生成百万级测试用例
    • 间接提示注入防御:新型对抗训练使攻击成功率降低80%
    • 记忆控制:训练数据泄露风险比前代降低14倍

在关键能力评估中,Gemini 2.5 Pro尚未达到网络安全关键能力阈值(仅完成50%专业级攻防挑战),但已触发谷歌的加速监控机制。


五、开发者生态战略布局

Gemini 2.X系列覆盖完整帕累托前沿:

模型类型 核心优势 适用场景
Gemini 2.5 Pro 极限推理/多模态 科研、复杂代理系统
Gemini 2.5 Flash 动态计算平衡 企业级应用
2.0 Flash-Lite 0.1秒响应延迟 移动端大规模部署

通过AI Studio平台,开发者可直接调用:

  • 原生图像生成(2.0 Flash)
  • 可控TTS语音合成(支持80+语言)
  • 百万token上下文处理API

六、未来展望:逼近通用AI的最后壁垒

Gemini 2.5的突破印证了三个趋势:

  1. 计算分配智能化:"Thinking"机制预示动态资源调度将成为模型标配
  2. 多模态统一架构:文本/图像/视频/音频在向量空间实现深度融合
  3. 评估范式革命:传统静态基准正被自我进化的评估智能体取代

正如DeepMind CEO Hassabis所述:"我们正在构建的不仅是工具,而是能理解并主动解决人类复杂需求的通用助手。" 当模型能在46分钟视频中精确定位1秒事件(见附录8.5),或在无视觉输入时仅靠RAM数据通关Pokémon,AI的能力边界已超越人类传统认知框架。

技术启示录:Gemini 2.5的进化速度暴露了AI领域的核心矛盾——当模型能力呈指数增长时,人类设计评估体系的能力却停滞在线性阶段。下一次范式突破,或许将始于AI自主设计评估标准的那一刻。

探索Gemini 2.5技术细节,附gemini 2.5技术报告英中对照版,仅供学习参考:

深度解析Kimi K2:当 1T 参数不再只是“大”,而是“能动手”的开放智能体

2025-07-12 22:07:26

一、从“答得好”到“做得成”:Kimi K2 的产品观跃迁

过去两年,大模型的竞争主线是知识密度(同等参数下答得更准)。Kimi K2 第一次把竞争焦点转向行动密度——在 32 B 激活 / 1 T 总参数的 MoE 架构里,用一套系统化的“数据-训练-推理”方案,让模型不仅能答,还能有计划地调用工具、写代码、发邮件、订机票。官方用一句话总结:Open Agentic Intelligence


二、模型规格:把“巨无霸”剪成“灵巧手”

表格

维度 数值 备注
总参数 1.06 T MoE,每 token 激活 32 B
预训练语料 15.5 T tokens 中英为主,含代码、工具 log、RL 自生成数据
上下文 8 k-16 k(eval 上限) 架构级优化(下文详述)
开源形态 Kimi-K2-Base / Instruct Apache-2.0,可商用

注:Kimi K2 把自己定位在“非 thinking 模型”赛道,对标 DeepSeek-V3、Qwen3-235B-A22B,主打低延迟 + 工具调用


三、训练黑科技:MuonClip——让注意力 logit 不爆炸

训练 1 T 参数的 MoE,核心难点是稳定性。Kimi 团队之前在 Moonlight 项目中用 Muon 优化器替换 AdamW,显著提升了 token 效率;但 Muon 在大规模场景下容易出现 attention logit 爆炸。

MuonClip = Muon + qk-clip

  1. 每次更新后,直接对 Query / Key 权重矩阵做 rescaling
    qi​←ηαWqxi​,ki​←η1−αWkxi
  2. 自适应系数 η 取当前 step 的最大 logit 的倒数(带截断),从源头压制 logit 幅度。
  3. 实验结果:15.5 T tokens 全程 零 loss spike,下游任务不掉点。

一句话总结:把梯度裁剪从“事后救火”变成“事前防水”


四、数据炼金术:Agentic 数据的“三位一体”

要让模型“动手”,必须喂它可验证、可交互、可泛化的 agent 数据。Kimi 搭了一套 ACEBench-style pipeline:

  1. Domain Factory
    • 数百个垂直域(电商、航空、电信、DevOps…)
    • 每个域 1k+ 工具(真实 MCP + 合成)
  2. Agent Arena
    • 多智能体仿真:Tool-Simulator ↔ User-Agent ↔ Kimi-Agent
    • 任务全部用可执行 rubrics 打分(pass/fail 可验证)
  3. RL Judge
    • 先用可验证任务(数学、代码)更新“自评判”模型
    • 再用更新后的 Judge 给非验证任务(写报告、做规划)打分,实现可扩展的自举 RL

最终产出 千万级高质量 agent 轨迹,成为 K2 后训练阶段的主力军。


五、硬核 Benchmark:把 SWE-bench 打成“入门题”

以下均为 单 attempt、无 test-time compute 的裸模成绩:

表格

任务 Kimi-K2-Instruct DeepSeek-V3 Qwen3-235B
SWE-bench Verified 51.8 % 36.6 % 39.4 %
LiveCodeBench v6 53.7 % 46.9 % 37.0 %
AIME 2025 49.5 % 46.7 % 24.7 %
Tau2-Airline 56.5 % 39.0 % 26.5 %

若允许多次采样 + 内部打分,SWE-bench Verified 可冲 71.6 %——已逼近早期 o1 水平,但 K2 仍被官方定义为“非 thinking”模型,可见其工程优化之深。


六、本地部署:一张 80G 卡即可跑 32 B 激活

官方推荐四条推理栈:

  • vLLM(最快开源 CUDA)
  • SGLang(长上下文友好)
  • KTransformers(CPU-offload 省钱版)
  • TensorRT-LLM(NVIDIA 全家桶)

量化方案暂未放出,但文档暗示 INT4 可塞进单卡 48 GB,边缘落地可期。


七、已知局限 & 下一步

表格

问题 临时 workaround 路线图
复杂推理长度过长 → 截断 用 agent 框架多轮拆解 引入 thinking mode
工具误调用 → 性能下降 禁用工具或重写描述 强化工具 schema 理解
单轮写大项目 → 掉点 用 agent 循环迭代 多模态 + 视觉

八、开发者上手 30 秒

bash

# 1. 拉起推理服务
vllm serve k2/Kimi-K2-Instruct \
  --tensor-parallel-size 2 \
  --max-model-len 8192

# 2. 用 OpenAI SDK 直接调
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
client.chat.completions.create(
  model="Kimi-K2-Instruct",
  messages=[{"role":"user","content":"帮我用 Python 爬取 Hacker News 前 10 条标题"}],
  tools=[{"type":"shell"},{"type":"python"}]
)

返回的不止是代码,而是自动 pip install requests、执行脚本、打印结果的完整 session。


九、写在最后

Kimi K2 把“大模型开源”推进到了Agent-as-a-Service阶段:

  • 参数大到 1 T,却能在单卡跑;
  • 数据大到 15 T,却能把 RL 做得像教科书;
  • 能力复杂到能订机票,却用 Apache-2.0 授权。

当社区还在卷 reasoning 时,Kimi 选择卷 Agentic。接下来,就看开发者们能把这只“手”伸到多远了。

附KIMI K2官方博客英中对照版,仅供学习参考: