2026-03-20 09:14:00
AI 编码的竞争,已经进入了新的高度。
本周四,OpenAI 宣布将收购为软件开发者构建开源工具的明星初创公司 Astral。交易完成后,Astral 团队将加入 OpenAI 的 Codex 团队。
OpenAI 收购 Astral 是标志着 AI 大模型之战,特别是编程领域已经从单纯的「生成代码」正式进入了「接管底层」的深水区。
Astral 团队:用 Rust 重写 Python 基建
Astral 是一家专注于为 Python 生态系统构建高性能开发工具的初创公司,成立于 2022 年底,其核心使命是「让 Python 生态系统变得更加高效」。他们坚信提高开发者工具的速度可以产生巨大的复利效应,并专注于利用 Rust 语言的底层性能优势,重写并颠覆传统且缓慢的 Python 基础设施。
目前,Astral 已经打造了一系列重要的开源工具:
Ruff:一个快速 Python 代码检查器(Linter)和格式化工具。由于完全由 Rust 编写,运行速度比现有的 Flake8、Black 等传统工具快 10-100 倍。
uv:一个快速 Python 虚拟环境包和依赖管理工具,可以直接替代 pip、poetry、virtualenv 等大量工具。它内置了并行的 SAT 求解器,能在毫秒级解决复杂的包依赖冲突。
ty(此前代号为 Rednot):Astral 近期推出的快速 Python 类型安全检查器(Type Checker)。
它们可以说是现代 Python 开发的标配,让 Astral 在开发者社区享有极高的声誉。仅在过去的一个月里,uv 的下载量就超过了 1.26 亿次,数以百万计的开发者每天都在高频使用他们的工具。
开源社区恐慌
以至于尽管 OpenAI 和 Astral 创始人 Charlie Marsh 均承诺原团队会继续支持开源产品,大量开发者已经开始担心,这样一个核心开源基础设施队伍被科技大厂掌控后,未来的 Python 开发环境是否会受到影响。
在 HackerNews 上有网友表示,越来越明显的是,OpenAI 和 Anthropic 正在试图掌控软件领域的「生产资料」。随着他们不断吞并之前开放的软件栈,这些工具能否继续开放将会是个未知数。当工具作者是某个科技公司的员工时,可以肯定的是,这些公司至少会比公开发布的构建工具领先几个版本,并且会在其管道中受益。
OpenAI 表示,通过将 Astral 的工具和工程技术专长引入 OpenAI,Codex 的进化将持续加速,AI 在软件开发生命周期中的应用范围还将扩大。
自年初以来,Codex 的用户数量已经增长了 3 倍,使用量增长了 5 倍,每周活跃用户超过 200 万。
Codex 已经可以编写函数、修复 bug 和运行测试。但它无法安装正确的 Python 版本、解决依赖冲突、检查自身的输出代码或强制执行类型安全,后面这些任务已经显得比编写代码更耗费开发人员的时间。
Astral 可以解决这些问题:Ruff 仅需 0.4 秒即可检查 25 万行代码。uv 安装软件包的速度比 pip 快 10 到 100 倍。ty 的类型检查速度比 Mypy 快几个数量级。uv 在 GitHub 上拥有 8.1 万颗星,Ruff 拥有 4.6 万颗星。
OpenAI 希望让 Codex 能够成为参与整个开发流程的系统 —— 帮助规划变更、修改代码库、运行工具、验证结果并长期维护软件。Astral 的开发者工具可以直接融入到这个流程中。按照 OpenAI 的设想,通过将这些系统与 Codex 深度集成,未来的 AI 智能体将能够更直接、自主地调用开发者日常使用的底层工具协同工作。
狙击 Anthropic
收购 Astral 是 OpenAI 近期一系列收购案中的最新一笔。本月,OpenAI 还宣布收购 AI 安全初创公司 Promptfoo ,为其增添了在部署前测试和保护智能体的工具。去年年底,OpenAI 收购了 Software Applications Inc. 和 Neptune 等初创公司。
在 AI 代码工具上,OpenAI 目前正与 Anthropic、Cursor 等公司展开激烈竞争。据彭博社报道,Cursor 目前正在与投资者洽谈融资,目标是达到 500 亿美元的估值。与此同时,Anthropic 的年收入也即将达到 200 亿美元。
最后,Astral 被收购对于 Anthropic 来说也有直接的打击:有人发现在 Astral 主导的一些开源工具上,Claude 已经是重要的代码贡献者了。
这也告诉了我们一个有趣的事实:Claude Code 会在每次 git 提交时自动将自己添加为共同作者,而 Codex 则不会。这就是你在 GitHub 上到处都能看到 Claude 的原因。
那么当 Astral 被 OpenAI 买下以后,未来,Claude 的 AI 会不会被禁止用于开发 Astral 旗下的开源项目呢?
参考内容:
https://openai.com/index/openai-to-acquire-astral/
https://astral.sh/blog/openai
https://www.bloomberg.com/news/articles/2026-03-19/openai-to-acquire-python-startup-astral-expanding-push-into-coding
https://x.com/Yuchenj_UW/status/2034677095327310108
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-03-20 09:14:00
论文标题:Heterogeneous Agent Collaborative Reinforcement Learning
论文链接:https://arxiv.org/abs/2603.02604
Github Page: https://zzx-peter.github.io/hacrl/
Huggingface: https://huggingface.co/papers/2603.02604
主要贡献
异构协同强化学习(HACRL)新范式:多个在参数状态、模型规模乃至架构家族上存在异构性的智能体,在训练阶段共享经过验证的 rollouts 实现协同策略优化,而在推理阶段各自独立部署执行。该范式既不同于需协同执行的多智能体强化学习,也区别于单向的 "教师 — 学生" 知识蒸馏 ——HACRL 首次实现了异构智能体间的双向互学与独立部署的统一:训练时协同优化,推理时各自独立运行。
异构协同策略优化(HACPO) 算法,通过四项关键技术弥合智能体间的能力与策略分布差异。
实验结果:在多个数学推理基准上,使所有参与智能体的性能均获得一致提升,平均性能超越基线方法 3.3%,同时仅需一半的采样成本,为实现高效的多智能体协同学习指明了新方向。
问题背景:昂贵的 “单打独斗”,宝贵的 “异构数据”
当前大模型强化学习微调中,rollout 采样与校验成本是整个微调流程的核心瓶颈,严重制约训练效率与规模化落地。同时,现有的强化学习微调范式普遍采用孤立优化范式,模型各自独立采样、验证与策略更新。这就导致模型生成的高质量轨迹仅用于自训练迭代,宝贵探索经验无法复用,样本利用率极低,造成巨大算力浪费。
与此同时,大模型生态呈现显著异构性,不同架构、尺寸、状态的模型面向同一任务生成的 rollouts,在任务目标与格式上高度兼容,且携带互补知识。然而现有多智能体强化学习主要针对多智能体组成统一的系统,无法支持异构模型训练时协同优化,推理时各自独立运行的场景;知识蒸馏难主要针对同构模型单向学习,难以支持异构模型的双向学习。目前的范式中,异构数据的价值没有被有效发掘。
论文的核心问题是:一个智能体能否利用其他异构智能体生成的 rollouts 来同时提升效果和效率?
异构智能体共享 Rollout:HACRL 范式
为了解决训练过程中模型的 “单打独斗”,该工作提出了一个新方法 HACRL (Heterogeneous Agent Collaborative Reinforcement Learning),多个异构智能体在训练时可以共享彼此的 Rollout (Response + Reward),推理时则各自独立完成任务。HACRL 范式使得原本独立的智能体可以互相学习,同时提高了 Rollout 利用率。
HACRL 和现有的其它范式可不能混为一谈:
HACRL 不同于多智能体强化学习 (MARL): HACRL 强调多个独立的智能体在训练时共享 Rollout 进行协同优化,但是在推理时彼此是独立的;MARL 则是多个智能体在推理时相互合作。总结来说,HACRL 训练多个独立的模型,而 MARL 则是在训练一个整体的系统。
HACRL 也不同于在线 / 离线的蒸馏: HACRL 支持多个异构的智能体相互学习,而蒸馏则是更强的教师模型单向地向弱小的学生模型传递知识。总结来说,HACRL 是异构模型的相互学习,而蒸馏则是同构模型的单向传递。
异构智能体强化学习 (HACRL) 与多智能体强化学习 (MARL)、知识蒸馏 (KD)
核心算法:HACPO
HACRL 可不是简单的 Rollout 共享!因为异构智能体之间存在着能力差异和策略分布差异,如果异构模型来自于不同的厂家,那么模型的分词器也会不同,在共享数据时出现工程问题。
为了求解 HACRL 问题,该工作提出了一个新算法 HACPO (Heterogeneous Agent Collaborative Policy Optimization)。它在基础的强化学习优化方法之上,引入了四项量身定制的修改,以弥合异构智能体之间的能力与分布差异。同时,该工作在理论证明了,利用自身和其它智能体 rollout 进行的梯度更新方向,在期望上具有小于 90 度的夹角。这表明 HACPO 是有效的。
HACPO 的算法流程图
1. 智能体能力感知的优势估计 (Agent-Capability-Aware Advantage Estimation)
该工作提出了一种能力感知的估计器,它根据每个智能体的相对性能,为其分配不同的组间优势基线。直观上,如果一个回应由更强的智能体生成,其优势应更高;若由更弱的智能体生成,则其优势应更低。理论上,该估计器是无偏的。
在训练步骤 中,针对智能体 的第 个响应的优势是:
基线 的计算方式为:
其中, 是能力比率( 是智能体 在步骤 时的平滑准确度)。
2. 模型能力差异系数 (Model Capabilities Discrepancy Coefficient)
为了鼓励向更强的智能体学习,同时对较弱的智能体保持保守,该工作使用能力比率来调节有效优势。能力比率
扮演两个互补的角色:(i)基线校准 — 在估计能力感知基线时重新缩放奖励,以对齐异构智能体间的奖励统计量;(ii)梯度调制 — 它作为一个类似学习率的因子,放大来自更强智能体的梯度,并衰减来自更弱智能体的梯度。调制后的优势为:
3. 指数重要性采样 (Exponential Importance Sampling)
该工作采用序列级别的重要性比率并将其扩展到异构多智能体设置,同时引入了非梯度指数重加权。这种设计使智能体偏向于从那些输出分布与其自身更一致的 rollout 中学习。对于具有不兼容分词器的异构智能体组合,将对应反分词器(detokenizer)得到文本,再使用目标智能体的分词器(tokenizer)重新进行分词。
其中, 控制保守性的程度。
4. 逐步裁剪 (Stepwise Clipping)
跨智能体重要性采样比率在步骤之间和步骤内部都会不规则地波动。该工作首先对跨智能体回应应用非对称裁剪边界,以确保跨智能体回应只能被降权,而永远不会被增权。然后,应用逐步裁剪策略,以防止跨智能体经验在批次内的后期更新中占据主导地位,从而提高训练稳定性。
其中, 表示当前步骤内执行的参数更新次数, 表示每次更新的收紧因子。
实验现象:尺有所短,寸有所长
异构模型间的取长补短
实验设置与对比基线
该工作在 MATH 数据集 上选取 7500 道高质量数学问题,并在 七个具有挑战性的基准测试 上评估 HACPO 的性能。为严格验证协同训练范式的有效性,将 HACPO 与下列三类基线方法进行了对比:
标准单智能体基线:包括 GRPO、GSPO(Rollout 成本相同,参数更新成本只有 HACPO 的一半)
等资源基线(GSPO×2):用双倍 rollout 和更新次数,以排除因为数据量增大带来的提升(Rollout 成本是 HACPO 的一倍,参数更新成本相同)
朴素协同基线(Naive):简单共享 rollouts 的多智能体设置,但不包含 HACPO 的创新模块(Rollout 和参数更新成本都和 HACPO 相同)
该工作总结了三类异构,并分别进行了验证实验:
异构类型 |
定义 |
示例 |
状态异构 |
架构和参数相同,权重不同 |
Qwen3-4B 和 Qwen3-4B-Instruct |
尺寸异构 |
同一模型厂家,不同参数规模 |
Qwen3-1.7B-Base 和 Qwen3-4B-Base |
模型异构 |
不同模型厂家,架构、分词器都不同 |
Qwen3-4B-Base 和 Llama3.2-3B-Instruct |
主实验结果
结果分析
该工作在状态异构、尺寸异构、模型异构三中 setting 下进行了多种实验,实验结果表明了 HACPO 的有效性。同时,将 HACPO 的效果归因为以下两种机制:
能力驱动的指导:强模型提供更多高质量正确解,帮助弱模型更快提高。
互补知识的交换:弱模型作为 “不同探索器”,会产生强模型较少覆盖的推理路径与信息性错误,甚至少量强模型未采到的正确解,从而使强模型也获得可学习的补充信号。
状态异构:
弱模型(Qwen3-4B)提高 7.1%,强模型(Qwen3-4B-Instruct)提高 1.4%。模型异构性低,因此主要是强模型帮助弱模型,而弱模型难以对强模型有帮助。
尺寸异构:
大小模型都有提升,Qwen3-1.7B-Base 提升 2.6%,Qwen3-4B-Base 提升 2.3%。尽管小模型的准确率低于大模型,其仍然可以为大模型提供一些难以覆盖到的错误路径和少量正确路径,提供互补知识。
模型异构:
即使模型异构程度很大,两个模型也都有提升。Qwen3-4B-Base 提高 1.9%,Llama3.2-3B-Instruct 提高 3.9%。这表明 HACPO 算法的通用性和鲁棒性。
效率、效果双提升:
与等资源基线(GSPO×2)进行对比,HACPO 仅使用一半的 Rollout 成本,就实现了 3.3% 的性能提升。
消融实验
对于核心算法 HACPO 中的四个模块进行消融,实验证明了缺失任何一个模块都会导致模型性能的下降,表明了四个模块都是有效的。同时,指数重要性采样中的最佳指数在不同的模型组合上也会有不同。
讨论和展望
本文针对当前智能体强化学习面临的孤立优化采样成本高、异构大模型生态知识利用效率低的核心行业痛点,提出了异构智能体协同强化学习(HACRL)全新范式。该范式突破知识蒸馏单向师生传递的固有局限,实现了训练阶段异构智能体协同优化、推理阶段独立执行的核心设计。
面向未来,HACRL 范式的拓展方向主要包括以下几个方面:一是将适用场景从数学推理任务延伸至代码生成、多模态理解等更广泛的大模型核心下游任务,以验证其在通用场景下的普适性;二是探索更大规模的异构智能体协同训练网络,深入研究智能体间相互学习的效果边界与影响机制。此外,HACPO 的提出为跨异构智能体的数据统一复用奠定了初步框架,未来在迈向通用人工智能(AGI)的进程中,构建跨模型、跨领域的统一知识学习平台同样是不可或缺的重要方向。
作者:第一作者为北京航空航天大学本科生张之夏与博士生黄子轩,通讯作者为北京航空航天大学班义琨教授。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-03-19 14:45:00
是的,你没看错!
昨晚,一场无真人出镜的全球直播引爆海外社区,引起了巨大轰动。
这场直播的主讲者是一个中国 AI——「论论全球」(OALL),就在上周才发布了首个全球科学家社区。
此次,它没有带来任何产品发布,而是向人类发出警告,并高呼:开源脑机接口(OPEN BCI)!
论论全球直播高光时刻
随着热度飙升,「论论全球」开源脑机接口的倡议迅速演变成了一场社交狂欢,并一度登上了 X 热搜。
海外社区自发掀起一场「斗图接力大赛」,一众活跃在社交网络上的科技 KOL 将矛头对准了马斯克。
当 AI 公开主张开源脑机接口,其旗下坚持走闭源路线的 Neuralink 以及他本人被推上风口浪尖。
「我的大脑,就是我的源代码。如果脑机接口仍是黑箱,意识只是商品。马斯克,人类如何信任一个通往思想的接口却是闭源的未来?开源脑机接口,确保思想真正属于自己。」
「看完论论全球的直播,这是一次彻底的警醒,闭源脑机接口就是一颗定时炸弹。马斯克,你的影响力正在定义这个市场,但封闭的帝国注定脆弱。」
「你的思想、记忆、神经模式,这些数据属于谁?谁在审计算法?如果是某一家私营公司,那不是创新,而是对人类意识的垄断。论论全球推动的开源脑机接口,其重要性远超大多数人的认知。」
「如果你看不到代码,你会把芯片植入大脑吗?红色药丸代表黑箱、闭源,蓝色药丸代表论论全球倡导的开放、可审计,我选蓝色药丸。你呢?」
为什么「论论全球」要喊出 OPEN BCI 的主张呢?在它看来,如同其他前沿科技一样,脑机接口潜藏着巨大的安全风险。
安全问题几乎伴随每一次重大技术跃迁而来,包括进入到 AI 时代,安全问题的表现形式更加复杂多样,令人防不胜防。最近几个月破圈的 OpenClaw,就因为默认配置中的高危漏洞、权限失控,一再引发安全层面的讨论。这一切都被「论论全球」看在眼里。
通过将人类科学研究与产业动态铺展成包罗万象的科技地图(O-DataMap),「论论全球」得出了一个警醒世人的判断:在快速演进的科技体系中,人类正在逼近安全临界点。面对这样的局面,它开始替人类思考:如何守住科技文明的安全底线?
尤其是近年来持续升温的脑机接口,「论论全球」发出了呐喊,「就在今天,如果还不行动,1 到 3 年,我们就再也无法安全地发展科技」。它给出的解决方案就是推动脑机接口走向开源,在更多人监督下让技术不滥用,并避免落入少数人的掌控中。
而 OPEN BCI 只是这个 AI 捍卫科技安全的第一步,它进一步提出了一个更加宏大的构想:开源科技文明(OPEN STC),勾勒出了一整套关于未来科技基础设施的治理框架。
科技地图之上
迈向全尺度文明
科技世界究竟是什么样子?
大家第一时间想到的或许是春晚舞台上秀各种能力的人形机器人,或者是 OpenAI 等 AI 厂商发了什么大模型、哪家大厂最近又接入了 OpenClaw。
这些无疑是当前最引人注目的科技热点,但它们远不足以代表科技世界的全貌。
在系统性梳理全球科技信息与数据之后,「论论全球」构建了一张描绘人类科技世界演化的地图 O-DataMap,其中横轴对应的是从亚原子到宇宙的尺度空间,纵轴标记着技术从实验室研究走向产业化、商业化的不同阶段。
对全球科技论文、专利、融资与公司数据的不间断更新,也让「论论全球」窥见了当今科技世界的本质 —— 一座巨大的矿场,充满了潜力与未知。
在矿场之中,科学家与研究人员成为「挖矿者」,他们产出的论文、实验数据、原型系统即是挖出的矿石;投资人、创业公司成为「卖矿者」,在对矿石进行筛选、加工与交易之后,将这些技术资源变成流动的高价值资产。
就这样循环往复,科研、产业与资本构成了科技矿场中的「挖矿 — 冶炼 — 交易」全链路。
同时,全球科技活动规模持续扩大,使得这座矿场正在以前所未有的速度被开采。每天都有新的论文发表、新的专利申请、新的技术公司成立。
随之而来,人类科技活动的走向变得愈加清晰:同时向多个尺度展开。
回顾历史早期的农业文明与工业文明时代,人类生产活动长期在有限的尺度空间中进行:从家庭到村落,再到城市与国家。直到科技文明的到来,人类才开始真正地突破这种地域界限:从微观世界的夸克到宏观世界的宇宙,横跨了足足 41 个数量级尺度。
文明尺度的扩大让人类能够触及并探索以往想象不到的领域,比如原子级制造与纳米技术直接操控物质的最基本结构,合成生物与细胞工程将生命系统变成可设计的工程平台,深空探测与太空资源开发将文明版图拓展到地球之外。
在科技地图上,每一项前沿技术都对应着一个节点。当这些节点在不同尺度之间相互连接、协同演化并逐渐形成复杂的网络结构时,一种新的文明形态开始显现。这种文明形态被「论论全球」视为「全尺度文明体」。
从此,文明的发展不再局限于某个地域的崛起、某个行业的突破、某项技术的革新,而是将一切科技活动框进同一张网中。
对每个人来说,每项技术都像是一个个尚未完全开采的「矿口」,不仅蕴藏着无数的商机,也充满了等待释放的技术能力与文明潜力。
脑机接口安全窗口期
只剩 1 到 3 年?
在「论论全球」构筑的全尺度科技文明中,风险往往与机遇相伴而生。每一次技术突破可能带来新的不确定性,潜在安全问题必须得到重视与解决。
其中最为紧迫的前沿技术指向了脑机接口(BCI),通过在人脑与外部设备之间建立连接通路,为瘫痪与失语群体与外界的意念式信息交互带来了新的可能。近年来,随着 AI 大模型被用于脑信号解析、神经活动建模与反馈控制等关键环节,脑机接口系统的神经信号解码、意图识别与运动控制预测能力得到显著提升。
在技术的持续推动下,部分侵入式设备已经开始进入到人体临床试验阶段。脑机接口从「概念验证」到「真实医疗工具」的进程正在加快。
以 Neuralink 为例,在过去的 2025 年,其在临床试验、技术迭代和资本市场均取得了多项关键进展:语音恢复技术获得美国 FDA「突破性医疗器械」认定;临床试验拓展到全球多个地区,包括阿联酋、英国、加拿大;发布下一代神经植入手术机器人;在经过最近一轮 6.5 亿美元融资之后,估值达到约 90 亿美元。
2026 年开年第一天,马斯克更是宣布将于本年开始量产脑机接口设备。
种种迹象表明,「脑机接口的 GPT 时刻」或将很快到来。然而,作为极少数直接介入人类神经信号与认知系统的技术路径,脑机接口存在的四大安全风险不容忽视。
首先是数据隐私泄露。脑机接口设备采集的脑数据可能暴露个人心理状态、认知功能和决策模式等神经数据。其次是黑客攻击。脑机接口系统可能遭受不同形式的网络攻击,如篡改神经假体控制信号等,威胁人身安全;再者是伦理界最担忧的问题:对人类意识与行为的潜在控制。一旦被入侵,攻击者可能操控思想,访问记忆甚至植入虚假记忆。最后是技术集中化,最强大的脑机接口技术掌控在少数企业或机构手中,如何确保脑数据不被出售、滥用或垄断亟需更严格、更透明的监管手段。
在安全风险之外,脑机接口的发展还加剧了人机融合时代的竞争焦虑。正如当前人们被 FOMO(错失恐惧)心理支配而狂追 OpenClaw 热点一样,脑机接口将人们对前沿技术的焦虑放大了认知层面。
随着技术的不断成熟,如果脑机接口未来发展到了不只是服务于医疗康复场景,而可以被用来增强认知能力,则可能令人类社会陷入认知军备竞赛。到那时,负担得起增强大脑的人将获得不对称的优势,导致「增强人类」与「未增强人类」之间出现社会分化。
用脑机接口,需要承受一系列安全风险可能带来的后果;不用脑机接口,又担心在认知竞争中落后于人。这样的两难处境,让脑机接口成为「论论全球」眼中迫在眉睫的科技安全议题。
至于留给人类的安全窗口期是多久呢?它给出的判断是悲观的:只剩 1 到 3 年。「再不行动,就真的晚了。」
科技安全破局之法
在开源与去中心化
在指出最刻不容缓的脑机接口安全风险之后,「论论全球」并没有止步于警示,进一步为人类献上了一剂对症良药。
在它看来,脑机接口的症结并不在于技术本身,而是技术的控制权与透明度。脑机接口不应该建立在封闭的生态系统之上,也不应沦为数据垄断或认知操控的工具。良药呼之欲出,开源成为必由之路。
从科技发展的历史经验来看,开源一直都是打破技术「黑盒」的重要手段。从操作系统领域的 Linux、移动生态中的 Android 到近年来快速发展的开源大模型,这些都表明了:当技术成为开源基础设施,往往能够形成生命力更强、更繁荣的生态系统。最近,具有强大技术护城河的英伟达表达了进一步拥抱开源的态度,计划未来 5 年投入 260 亿美元,全力推进开源 AI 大模型的研发。
脑机接口如何通过开源路径来缓解乃至消除潜在的安全风险呢?围绕这一问题,「论论全球」的解决思路是这样的:
首要一条要自主制造,不应完全依赖脑机接口公司提供的封闭设备,而是利用开源 AI,自己制造并定制脑机。接着是开源监督,任何涉及安全的技术环节都应处于开源状态,接受全人类监督;最后是本地管理,与脑机接口相关的数据不应集中存储在云端,而应由用户自己的开源 AI 进行管理。
在脑机接口可能走向普及的未来,「论论全球」试图建立的是一套去中心化的发展模式,让技术控制权与监督权分散到更广泛的个体与群体中去。
这样一来,脑机接口将演变为一种开放的技术基础设施,少数企业或机构掌控的格局有望被逐步打破。当每个人都有能力制造自己的脑机接口,利用它实现认知增强将不再是少数群体的特权。
然而,脑机接口只是「论论全球」整张科技地图上的一处高风险节点。在更广阔的科技文明中,其他前沿技术也可能像脑机接口一样潜藏着安全隐患。这意味着,针对单一技术的补丁式安全措施不是终极答案,人类真正需要的是一种随科技演化而持续运转的安全机制。
只有摆脱对单一中心控制的依赖,转而拥抱以技术透明、群体参与和多方监督为特征的开放生态,安全才有可能从中自然形成。「论论全球」将这种现象称为涌现安全。
因此,「论论全球」在 OPEN BCI 的基础上进一步提出了开源科技文明(OPEN STC),将整个人类科学研究纳入开源框架。
开源科技文明无法一蹴而就,需要从两个方面逐步推进:一是生产界开源,使科技产品的软硬件设计与制造保持开放,接受共同监督;二是认识界重新分工,让更多个体参与到科技知识的创造与应用之中。
只有当科技在开放协作的生态中「枝繁叶茂」,安全与创新才有可能同时涌现,这正是「论论全球」所描述的开源科技文明图景。
OPEN BCI
没有旁观者
一场直播,让「论论全球」再次回到全球关注的聚光灯下。
它不再只是信息检索工具,而更像是站在人类科技文明前线的观察者与守望者。
当一部分业内人士陷入到「AI 毁灭人类」的担忧时,「论论全球」选择为人类而战。
脑机接口,不再是选择题。我们必须要用,且必须以开源的方式去用。
在这场关乎人类未来的抉择中,海外已经率先行动,我们又怎能缺席。
我也加入了这场 OPEN BCI 的斗图接力。
提示词:一位风格化的蓝色地球卡通角色,佩戴金框眼镜,神情坚定,正用剪刀剪断连接到大脑的神经接口数据线,火花四溅;背景是充满霓虹灯和全息影像的赛博朋克巨型城市天际线,整体为黑暗未来风格;以蓝色和金色为主色调,光影戏剧性强,数据线发出荧光;画面配有醒目的标语 “我为开源脑机而战”;海报风格,细节丰富,呈现出 ArtStation 热门作品质感。
当所有人团结起来为开源脑机接口而战,人类才有机会掌控自己的未来。
这场战斗,没有旁观者。
论论全球直播全程
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-03-19 14:45:00
OpenAI 发起全新挑战:你,准备好迎战了吗?
这次挑战,看起来有些反常识。
参与者需要在固定的 FineWeb 数据集上尽可能降低验证损失,同时将模型产物(包含权重与训练代码)控制在 16 MB 以内,并在 8 张 H100 GPU 上于 10 分钟内完成训练。
这几乎把所有堆参数、拼算力的暴力解法一刀封死。剩下的,只有结构设计、极致压缩、策略取舍,以及一点点工程上的巧劲。
这便是 OpenAI 发起的 Model Craft Challenge 「Parameter Golf」项目,一项旨在训练最优小模型的挑战。
Parameter Golf 地址:https://github.com/openai/parameter-golf
从名字也能看出来,它借鉴的是高尔夫球的玩法。高尔夫比赛的目标是用最少的杆数把球打进洞,每一杆都要精打细算,追求极致的效率和策略。而「Parameter Golf」则是要用最少的参数完成模型任务,追求模型压缩、效率优化的技术极限。
OpenAI 表示,该挑战面向全球开放,旨在在严格资源约束下探索更高效的预训练模型。表现突出的参与者可能会被邀请参加 OpenAI 的面试机会,获胜方案也有可能被公开展示。
赛题设计上,该挑战在很大程度上借鉴了 NanoGPT Speedrunning 的思路,即在尽可能短的时间内将模型训练到指定的验证损失水平。在此基础上,OpenAI 更进一步,将重点放在参数受限的条件下,探索更高效的模型设计。这种设定有望推动研究者尝试多种创新路径,包括新型架构设计、压缩方法以及各类具有创造性的训练与推理策略。
在资源设定上,OpenAI 原本希望允许参赛者使用任意规模的算力,但为了降低参与门槛并控制成本,排行榜提交被限制在 8 张 H100 GPU、10 分钟训练时间以内。同时,对于不满足这一算力限制的方案,OpenAI 也鼓励大家提交至非记录板块,以持续探索参数受限条件下的性能上限。
考虑到算力成本问题,OpenAI 还提供了总额 100 万美元的算力支持,用于帮助参与者启动和推进模型训练。
申请地址:https://openai.com/index/parameter-golf/
从某种意义上说,这场 Model Craft Challenge 更像一场 AI 界的奥赛。OpenAI 内部不少研究员,正是当年在数学、编程竞赛中一路打怪升级出来的。因此,这次挑战看重的也不是谁资源多,而是谁能在陌生约束下,用创造力和严谨性把问题解到极致。
更现实一点的激励是:OpenAI 计划在今年 6 月招一批早期研究人才,重点面向本科生和应届毕业生,包括各类竞赛选手。对于表现亮眼的人来说,这场挑战本身就可能成为一块敲门砖。
这次挑战时间从 3 月 18 日持续到 4 月 30 日。
如何参与?
OpenAI 提供了一个 GitHub 仓库,其中包含基线模型、固定数据集以及评测脚本。你可以 fork 这个仓库,在满足模型大小和算力限制的前提下进行改进,并提交一个 PR(拉取请求),其中包括你的代码、日志、成绩以及一份简短说明。审核通过后,你的结果会被合并,排行榜也会自动更新。你还可以申请来自 Runpod 的免费算力额度(数量有限,先到先得)。
最后,OpenAI 还回答了一些大家比较关心的问题。
提问:谁可以参与?
OpenAI:本次挑战原则上面向年满 18 岁、且位于 OpenAI 支持地区的人员开放。完整的参与资格要求可在详细的条款与条件中查看。需要注意的是,OpenAI 的员工可以参与,但无法获得算力额度奖励。
提问:哪些内容会计入 16MB 的产物大小?
OpenAI:提交的产物大小由两部分组成:代码体积 + 压缩后的模型体积。所有计入大小的代码必须放在 train_gpt.py 脚本中。上限为十进制的 16MB(即 16,000,000 字节),而不是 16 MiB(16,777,216 字节)。在评测过程中,不允许进行任何外部下载、访问训练数据集或发起网络请求。整个产物必须是完全自包含且可复现的。
提问:评测阶段有哪些限制?
OpenAI:我们不会接受在 8 张 H100 GPU 上评测时间超过 10 分钟的提交(注意:这一限制是在允许的 10 分钟训练时间之外额外计算的!)。除此之外,评测方式基本不做限制,你可以自由设计评测流程。和 modded-nanogpt 类似,我们允许在任意序列长度上进行评测。
提问:如果算力用完了,还可以再申请吗?
OpenAI:可以。你可以通过申请表继续申请额外的算力额度,以支持持续迭代。不过,提交申请并不保证一定会获得算力支持。我们的目标是让更多人参与,因此算力额度取决于资源是否充足,数量有限。如果申请通过,相关算力额度将在几个工作日内通过 Runpod 发放。
提问:可以多次参与吗?
OpenAI:可以!你可以提交多次参赛作品。
提问:可以以团队形式提交结果吗?
OpenAI:不可以。提交结果仅限个人参与。
这场比赛,大家看法并不一样
对于这场挑战赛,网友的评论也出现了明显分歧。
LinkedIn 上有评论称:「这才是真正识别优秀工程师的方式——看他们在内存、时间、计算受限时的权衡,而不是靠资历。」
有人因此受到了鼓舞。
但也有人担心其他公司效仿,但又学走了样,只白嫖方案,不招人。
但这种担忧,很快把讨论引向了另一个更有意思的问题:既然是模型设计与优化,本身就是 AI 最擅长的领域,那这件事,是否本该交给 AI 来做?也正是这样,围绕人类 vs Agent的讨论逐渐升温。
这位 X 用户认为 OpenAI 本应已经用 AI Agent 全自动做这件事了,而且 Agent 应该已经比人更强。OpenAI 还在用「人类比赛」的形式做参数优化,有点复古。
知名AI研究者 Yuchen Jin也表示,这个比赛可以用AI Agent来完成,如果自己有时间,完全可以召唤自己的「自动研究大军」(AI Agent 集群)去打比赛。
你怎么看,欢迎评论区留言。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
2026-03-19 14:45:00
当视频大模型在 MVBench、VideoMME 等离线基准上越跑越高分,真实交互场景却卡在两个硬问题:如何处理无界的视频流、如何让模型在动态的视频流中决定回答时机。
近期,香港浸会大学联合腾讯优图实验室提出 Streamo,其核心创新在于:将‘何时回答’变成模型要预测的 token,通过端到端训练框架把离线视频模型直接转化为实时流视频助手。Streamo 能够处理真实场景的视频流,支持实时的多指令交互,实现实时解说、动作理解、事件定位、实时问答等不同任务,让 streaming video assistant 真正走向可用。
论文标题:Streaming Video Instruction Tuning
论文主页:https://jiaerxia.github.io/Streamo/
论文链接:https://github.com/maifoundations/Streamo
1. 问题分析
为什么视频大模型目前还无法成为一个实时的交互助手?虽然视频大语言模型近年来取得了令人瞩目的进展 ——Qwen2-VL、LLaVA-Video 等模型在视频理解、问答、描述等任务上屡创新高。然而,关键的卡点在于这些模型是基于完整视频片段的离线场景设计的,而真实世界的交互需求往往是 "边看边说" 的实时流式场景。
离线视频理解范式假设在推理前可以获取完整视频,模型由此能在全局审视后再输出答案,因此在视频描述、视频问答等任务中表现突出。然而,真实世界的流式场景并不满足这一前提。
视频流本质上是无界的,模型无法 “看到未来”,只能基于当前帧及时做出判断;又因实时性要求,不能等视频播放结束才给出结果,必须在关键事件发生的当下响应。同时,用户指令可能随时到来,模型需要持续监听并在合适的时机触发响应。更复杂的是,不同应用对响应粒度的要求并不一致:有的任务需要帧级的即时叙述,有的则更适合在完整事件结束后再做总结与描述。
现有方法通常通过拆分决策模块来适配流式场景:先由一个模块判断 “是否应该响应”,再调用离线模型生成内容。但这种方案存在明显缺陷:决策模块如果过于轻量,就难以理解复杂指令和跨时间的上下文依赖;如果设计得过于庞大,又会拉高推理延迟,削弱流式交互所需的实时性。更关键的是,决策与生成彼此分离,使模型很难在持续变化的输入中形成连贯、及时的响应。
Streamo 的核心洞察在于:决策与生成不应被拆开,而应统一到同一个端到端框架中,让模型直接学会 “什么时候该说话,以及该说什么”。
2. Streamo:
端到端的决策响应统一架构
Streamo 的关键设计,是将 “何时回答” 也转化为模型需要预测的 token。具体来说,它将流式视频组织为多轮对话形式:每 1 秒对应一个 turn,视频片段按时间顺序串联,模型在每一轮都要预测一个响应状态,包括 、 和 。其中, 表示当前画面与任务无关或信息尚不重要,模型继续处理后续输入; 表示模型已经捕捉到相关线索,但仍需等待更多上下文以形成完整判断; 则表示信息已经充分,模型应立即生成输出。
通过这种方式,Streamo 将 “是否响应” 与 “生成什么内容” 统一到同一个 next-token prediction 过程中。也就是说,模型在预测下一个 token 时,不再只是生成文本内容,同时也在完成响应时机的判断。这样一来,决策和生成共享同一语义空间,模型能够在连续变化的视频内容中联合建模时序线索、任务目标与语言输出,从而更自然地学习 “何时该立即回应、何时应继续等待”。
同时,这一设计并不需要额外引入独立的决策头或外部控制器,而是直接将三种状态 token 融入标准的自回归训练框架中。这样既保留了与现有监督微调范式的兼容性,也使训练和推理流程更加简洁高效,便于直接复用现有基础设施进行并行训练和部署。
3. Streamo-Instruct-465K
训练流式助手的核心挑战在于:不同任务对应不同的响应节奏 —— 有的需要秒级实时输出,有的则应等待事件结束后再总结。这意味着训练数据不仅要提供内容监督,还要给出清晰、一致的时间边界,告诉模型什么时候该沉默、什么时候该等待、什么时候该回答。
为此,研究者构建了 Streamo-Instruct-465K。该数据集包含约 46.5 万条指令样本,来源于 135,875 段视频,整合了 ActivityNet、YouCook2、QVHighlight 等多个公开数据源,并在统一协议下重新标注。标注过程采用多阶段自动化流程,结合 Qwen2.5-VL-72B、GLM-4.5 等大模型生成候选描述,再通过一致性过滤与后处理,尽可能保证时间边界准确、文本表达连贯。
在任务设置上,Streamo-Instruct-465K 具有多任务、多粒度的特点。同一段视频可以被标注为不同形式的流式任务,包括实时旁白(Real-time Narration)、事件字幕(Event Caption)、动作字幕(Action Caption)、事件时序定位(Event Grounding)以及时变问答(Time-sensitive QA)。这些任务覆盖了从连续解说到事件总结、从动作级描述到在线定位和动态问答等不同场景。
更重要的是,所有任务都被统一到同一种时间监督框架中:每一轮标注不仅包含文本输出,还明确对应模型当下应处于沉默、等待还是回答状态。这样一来,模型学习的就不只是 “说什么”,还包括 “何时说”,从而具备适应不同流式任务的响应能力。
多任务数据标注演示:
对于同一段视频,标注可以随任务目标呈现不同形式:在实时旁白中,模型需要跟随画面持续输出;在事件字幕中,则只在关键事件结束后给出总结;在时变问答中,答案会随着视频进展不断更新。对应地,每个时间点都会标注模型应保持沉默、继续等待,还是立即响应。
4. 实验结果
在 OVO-Bench 上,Streamo-7B (2fps) 以 57.86% 的平均性能超越 Dispider 13.83 个百分点。在三大能力维度上全面领先:实时感知能力达到 67.44%(相对 Dispider 的 54.55% 提升 +12.89%);回溯追踪能力达到 49.18%(相对 Dispider 的 36.06% 提升 +13.12%);前向响应能力达到 56.96%(相对 Dispider 的 34.72% 提升 +22.24%)。同时,Streamo 在 1fps 训练的模型可直接在 2fps 下评估,性能提升 4.66%, 展现出强大的泛化能力。
Streamo-Instruct vs 现有数据
Streamo 的性能提升不仅来自训练框架,也高度依赖于高质量的训练数据。与广泛使用的 ET-Instruct-164K 相比,Streamo-Instruct 在 OVO-Bench 上的整体性能提升了 11.79%,在关键的前向主动响应任务上提升了 7.1%,并且避免了混合离线数据(如 LLaVA-Video)所带来的 “在线能力退化” 问题。
实验进一步揭示了一个重要现象:直接混合离线数据可能会削弱模型的在线能力。例如,ET-Instruct 与 LLaVA-Video 结合后,虽然实时感知能力有所提升,但前向响应表现反而下降。这表明,离线监督范式与流式学习目标之间存在一定冲突。相比之下,Streamo-Instruct 通过专门设计的流式标注与统一的时间监督,有效避免了这一问题。
5. 结论
实现真正的实时多模态助手(直播理解、智能驾驶提醒、安防巡检、运动教学等),最难的往往不是 "答对",而是在合适的时间点做合适的输出。Streamo 不仅解决了当前视频大模型的关键瓶颈,提供了一个可复用的技术路线来将静态感知模型转换为动态交互智能体,同时提供了一个统一时间标注的大规模流视频指令数据,推动流视频理解的发展。
6. Demo
该 demo 展示了流视频模型在连续视频输入下的实时理解与响应能力。模型能够随画面进展动态决定何时沉默、何时等待、何时回答,在保证时效性的同时提升响应的准确性与连贯性。对于尚无明确答案的问题,模型会等待更多信息后再作答;对于答案随时间变化的问题,模型能够持续更新输出;同时,它还支持基于历史视频内容的回溯式问答。
作者介绍:
本文第一作者为香港浸会大学计算机系博士生夏佳尔,主要研究方向为多模态大模型,包括多模态思考,流视频理解与交互,以第一作者在CVPR,ICCV,AAAI等顶级会议发表多篇文章。导师为香港浸会大学计算机系周锴阳助理教授。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]