MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

突发|arXiv严惩「用AI不核查」行为,违者拉黑一年,连坐所有作者

2026-05-15 11:49:00

机器之心编辑部

全球研究者注意:论文预印本上传平台 arXiv 又出新规了!


今天凌晨,俄勒冈州立大学杰出教授(荣休)、arXiv 计算机科学分区 CoRR 的机器学习板块首席版主 Thomas G. Dietterich 宣布:根据我们的行为准则,在论文上署名即表示每位作者对其全部内容承担完全责任,无论这些内容是如何生成的



如果生成式 AI 工具产生了不当言论、抄袭内容、偏见内容、错误、失误、不实引用或误导性内容,并且这些输出用在了论文中,相关责任均由其作者承担。近期已经明确了针对此类行为的处罚措施。


如果某篇投稿中存在无可辩驳的证据表明,作者并未核查大语言模型(LLM)生成的结果,即意味着我们无法信任该论文中的任何内容。


这里,无可辩驳的证据示例包括:虚构的参考文献、来自大语言模型的元注释(如「这是 200 字的摘要,您需要我做任何修改吗?」「此表中的数据为示意性质,请填入实验的实际数据」等)。


处罚结果为:一年内禁止向 arXiv 投稿。此后再次向 arXiv 投稿时,论文必须先被声誉良好的同行评审平台接收



从评论区的反馈来看,支持者有很多,「非常好,请坚决执行。」



质疑者同样存在,有人认为「这项政策恐怕会根据机构特权和个人的知名度选择性执行,并最终会沦为一种工具,用来让没有背景关系的人闭嘴,而不是促进更良性的科学讨论。」


对此,Dietterich 给出了解释,「我承认我们的处理流程中可能会存在偏见。我们会使用一套标准的大语言模型检测算法来识别需要审查的论文。审核人员也可能带有偏见。我们非常乐意与研究者合作,共同研究我们工作中的偏见与成效。



有人觉得「新规在短期内是有用的,但随着 AI 的进步,一年之后这些核查手段和标准是否还能奏效。既然如此,禁投一年的处罚又有什么意义呢?为什么不能直接打上 AI 生成的标签,到此为止就好?」



另外,还有人提出了一些其他问题,比如对每个作者的连坐处罚是否合理,「你如何判断作者是否同意署名?如果某人 X 写了一篇 AI 生成的垃圾论文,在我不知情的情况下把我的名字加上去,然后上传到 arXiv,我也会被连带禁投吗?反过来,如果我和某人 X 一起写了 AI 垃圾论文,他投稿到 arXiv 后被禁了,我能不能假装对这个项目毫不知情来逃避处罚?」



对于上述情况,有人提议,「看起来真正的问题在于有人在自己不知情的情况下被强行署了名。解决方案似乎是:除非你接受了对这篇论文的邀请,而且你在接受前可以先行审阅,否则你的名字就不会出现在作者列表里。」



此次,arXiv 的新规将「使用 AI 辅助写作」的责任边界划分得更加清楚,完全由作者承担。


其实,一些 AI 顶会早已出台了针对论文作者与审稿人「滥用 AI」的规定:


  • ICLR 2026 惩罚不主动披露滥用 AI 的论文作者,对违规使用 AI 审稿的评审人,他们自己的论文也可能被直接拒稿;

  • ICML 2026 严禁将 LLM 列为作者,严禁任何形式的隐藏提示词注入;

  • CVPR 2025 明令在任何审稿阶段都不得使用 LLM 撰写或翻译评审意见。若审稿人被认定高度不负责任(如提交 AI 生成的意见),其自己投稿的论文也可能被直接拒绝。

  • EMNLP 2025 要求被接收的论文必须附带一份「负责任 NLP 检查清单」。


这些新规标志着,学术界对生成式 AI 的治理已经从讨论进入到了「设立红线、明确惩罚」的实操阶段。


图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


D-OPSD: 将OPSD引入扩散模型,让少步扩散模型「边跑边学」,还能学会新概念

2026-05-15 11:49:00


本文由阿里巴巴 Z-Image 团队联合香港科技大学等机构共同完成。第一作者为香港科技大学预备博士生 & 通义实验撒实习生姜登阳,他的研究方向为视觉表征和生成。


少步扩散模型(如 Z-Image-Turbo)凭借高效采样和优异质量,已成为图像生成领域的主流方案。然而,这些经过 "步数蒸馏" 的模型在持续微调时面临一个棘手问题:传统监督微调(SFT)和离线 RL 方法会让模型 "忘记" 原本的少步生成能力,训练与推理之间存在严重的分布偏移。

 

为此,阿里巴巴 Z-Image 团队联合香港科技大学、加州大学圣地亚哥分校、香港中文大学等机构提出 D-OPSD(On-Policy Self-Distillation),首个针对少步扩散模型的在线策略自蒸馏框架。D-OPSD 无需奖励模型、无需成对偏好数据,仅凭目标图像 - 文本对即可让模型在保持原有少步采样能力的同时,学会新概念、新风格和新领域偏好。在 LoRA 定制和全量微调实验中,D-OPSD 在概念学习、视觉质量、提示词遵循和先验知识保留之间取得了最佳平衡。



  • 论文标题:D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models

  • 论文链接:https://arxiv.org/abs/2605.05204 

  • 项目主页:https://vvvvvjdy.github.io/d-opsd/ 

  • 代码地址:https://github.com/vvvvvjdy/D-OPSD 


一、核心问题:少步模型的 "持续学习" 困境


当前高性能图像生成模型正从低效的多步采样器转向高效的少步采样器。这些经过步数蒸馏的模型在减少函数评估次数的同时保持了生成质量,极具实用价值。但如何对这类模型进行持续微调,学界尚无明确答案。


传统训练范式各有短板:



  • Vanilla SFT:通过目标图像构造 GT velocity 进行监督,但优化状态和信号均来自目标图像而非模型自身的少步采样轨迹,导致训练与推理严重不匹配。

  • 离线 RL 方法(如 Diffusion-DPO、PSO):引入成对监督,但优化状态仍非完全由学生当前分布诱导。

  • 在线 RL 方法(如 ReFL、Flow-GRPO):在模型 rollout 上训练,能更好保留少步行为,但依赖奖励函数或奖励模型,而二次开发者往往只有图像 - 文本对,难以获取高质量奖励信号。


D-OPSD 在设计空间中占据了一个独特的位置:在线策略、无需奖励模型、保持训练 - 推理一致性,同时通过自蒸馏引入目标图像 - 文本对。


二、关键发现:扩散模型继承了 LLM/VLM 的 "上下文能力"


近期,大语言模型(LLM)领域的 On-Policy Distillation(OPD)和 On-Policy Self-Distillation(OPSD)范式引起了广泛关注。 其核心思想是:学生模型在自身采样出的轨迹(on-policy roll-outs)上进行训练,而教师模型在更丰富的上下文条件下提供更强的监督信号,从而在不依赖外部奖励模型的情况下实现高效的后训练对齐。例如,在 LLM 中,学生基于自身采样的回答进行优化,教师则在更完整的上下文(如参考文档、多轮对话历史)下给出更优的预测,通过分布对齐将学生拉向教师。


现代配备 LLM/VLM 编码器的扩散模型,能够从编码器中继承上下文学习(in-context learning)能力。研究团队发现,当仅用文本提示时,模型生成的是通用结果;而当将目标图像与文本提示一起输入编码器、使用多模态特征作为条件时,即使不做任何额外训练,模型也能生成保留目标概念或风格的图像变体。



这一涌现行为为在线策略自蒸馏提供了关键基础:目标图像不再作为直接的降噪目标(那会改变轨迹本身),而是作为更强教师条件的上下文监督信号。学生分支仅基于文本条件采样,教师分支基于文本 + 图像的多模态条件提供更强预测,两者在同一个 on-policy 轨迹上进行对齐。


三、方法框架:学生跑轨迹,教师给监督


D-OPSD 的训练流程如下:



对于每个训练对 首先编码学生和教师条件,然后进行学生 on-policy 轨迹采样,再在同一状态上,对齐学生预测速度和 教师预测速度,然后更新学生模型和同步 EMA 更新教师。



与 LLM 中的 OPD(On-Policy Distillation)类比:学生的采样响应对应学生的降噪轨迹,教师的更强预测对应更强的条件降噪场。核心区别在于,自回归 LLM 输出离散词表分布,可直接用 KL 散度对齐;而流匹配扩散模型参数化条件速度场,因此 D-OPSD 采用速度预测的均方误差作为对齐目标,起到类似的作用 ——> 将学生的条件生成动态拉向教师,在更强的多模态上下文下对齐诱导的轨迹分布。


四、为什么 D-OPSD 能保留少步能力?


与  SFT 相比,D-OPSD 避免了强迫模型拟合在其自身少步采样过程中从未出现过的目标图像状态。优化始终在学生的实际 rollout 上进行,大幅减少了训练与推理之间的失配。因此,D-OPSD 为步数蒸馏扩散模型提供了一种在线策略监督训练范式,使其能够从目标图像中学习新概念、风格或领域偏好,同时保留原始的少步采样行为。


五、核心实验效果


1. LoRA 定制:少量样本学会新概念


在仅有少量图像 - 文本对的 LoRA 训练中,D-OPSD 能够从极少量样本中学习新概念,同时保持少步生成质量,并能泛化到未见过的提示词。


对比基线模型、SFT 和 PSO:


  • 基线模:完全不理解新概念 [V]

  • SFT:虽然学到了概念,但视觉质量明显下降,出现模糊、伪影

  • PSO:质量较好,但概念保真度不足,且可能破坏原有风格

  • D-OPSD:在保持高视觉质量的同时,精准复现目标概念,并能自然融入新场景



2. 全量微调:适应新领域不丢老本


在全量微调实验中,D-OPSD 将模型向目标领域(如动漫风格)适配,同时保留原始领域知识和少步推理能力。


  • SFT:过度拟合目标域,原始域知识严重遗忘

  • PSO:保留部分先验,但目标域适配不够充分

  • D-OPSD:在目标域表现优异的同时,原始域生成质量依然稳定,真正实现了 "学新不忘旧"


六、未来值得研究的方向


未来,D-OPSD 框架还可向多个方向拓展:


  • 更丰富的教师上下文:引入图像编辑模型或视频生成模型的指导信号

  • 额外训练约:结合其他训练目标进一步提升性能

  • 多专家在线策略蒸馏:用其他算法训练领域专属专家后,在 D-OPSD 框架内蒸馏回单一基础模型


少步扩散模型仍有巨大的后训练提升空间。"蒸馏 + 在线策略" 范式,为未来进一步释放扩散模型在可控性、组合性与持续学习能力方面的潜力,提供了一个充满前景的新方向。


图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


越懂你,越危险?MemPrivacy揭示AI记忆下一站

2026-05-15 10:02:00

图片
机器之心发布

AI 记忆时代 ,Agent 越来越像一个真正的私人助理。


它记得你的习惯,知道你的日程,理解你的健康状态,甚至能在长期对话中逐渐形成一套关于你的「个人画像。但问题也随之而来:如果这些记忆都要上云,隐私还安全吗?


4 月 22 日,OpenAI 开源了一个名为 privacy-filter 的轻量级隐私过滤模型,试图解决大模型系统中的 PII 检测与脱敏问题。



  • OpenAI Privacy Filter 地址:https://openai.com/zh-Hans-CN/index/introducing-openai-privacy-filter/


仅仅两周后,记忆张量 MemTensor 团队拿出了一个更激进的答案。该方案由记忆张量 MemTensor 与荣耀 HONOR 团队联合研发,同济大学也参与其中 —— 这也是端侧厂商与记忆基础设施团队首次在「Agent 隐私」这件事上深度合作。


他们正式开源了面向端云协同 Agent 的隐私保护框架与系列模型 MemPrivacy。更令人意外的是,在同样的真实对话隐私提取任务上,MemPrivacy 的 F1 分数最高比 OpenAI privacy-filter 高出 50.47 %


这并不是一次临时跨界。


在此之前,记忆张量已经推出 MemOS,把 Agent 记忆从向量库或 RAG 插件,提升为可管理、可调度、可演化的系统资源:记什么、怎么检索、如何更新、如何治理,都被放进一套「记忆操作系统」里。


MemPrivacy 更像是 MemOS 往端云协同场景自然长出的隐私层 —— 当 Agent 开始长期记住用户偏好、健康状态、账号凭证和工作上下文时,问题就不只是「能不能记住」,而是「能不能安全地记住」。这也让记忆张量做 MemPrivacy 显得顺理成章:它不是从通用 PII 打码出发,而是直接从 Agent 长期记忆的真实使用场景出发,重新定义隐私类型、保护级别和占位符机制。


发布当天,MemPrivacy 即上榜 Hugging Face Daily&Weekly Papers TOP1。


这不是一个简单的「隐私打码工具」。


它瞄准的是下一代个性化 Agent 最核心、也最棘手的问题:如何让云端大模型继续拥有长期记忆和个性化能力,同时又不让用户的敏感数据真正离开本地?


换句话说,MemPrivacy 想做的事情是:让 Agent 可用,但不可见。



  • 论文标题:MemPrivacy: Privacy-Preserving Personalized Memory Management for Edge-Cloud Agents

  • 论文地址:https://arxiv.org/pdf/2605.09530

  • 代码仓库:https://github.com/MemTensor/MemPrivacy

  • 模型仓库:https://huggingface.co/collections/IAAR-Shanghai/memprivacy


OpenAI 入局

但 8 个标签撑不起 Agent 的长期记忆


OpenAI 的 privacy-filter 思路很简单:扫描文本,识别隐私片段,然后替换成语义标签。


比如,把用户输入中的人名「Maya」替换成 [PRIVATE_PERSON]。


这套模型拥有 1.5B 参数,其中激活参数约 50M,采用双向 Token 分类架构,支持 128k 上下文,主打高吞吐量 PII 检测与掩码。


相比传统一律替换成 *** 的打码方式,这当然已经进了一步:它至少保留了一部分语义。


但放到端云 Agent 的长期记忆场景里,问题很快暴露出来了。


OpenAI privacy-filter 只提供 8 类基础隐私标签。对于普通表单脱敏,这也许够用;但对于一个需要理解用户、长期记忆用户、甚至调用工具替用户执行任务的 Agent 来说,这个粒度太粗了。


银行卡号、社保编号、项目档案号,可能都会被塞进同一个 [ACCOUNT_NUMBER]。登录密码、数据库凭证、API Key、内部密钥,也可能统统变成 [SECRET]。


这就像把所有危险物品都贴上「危险」两个字。


安全是安全了一点,但语义也被抹平了。


真正的问题在于,Agent 不是数据库清洗脚本。它需要理解上下文、保留关系、形成记忆,并在未来的对话中继续使用这些信息。


当用户说「我的血压今天是 160/110」时,这不是普通数字,而是健康指标;当用户说「这是我公司数据库的连接串」时,这也不是普通文本,而是高危凭证。粗粒度标签一旦识别不到,就会漏;一旦识别错,就会毁掉语义。


于是,隐私过滤进入了一个两难局面:


漏判,用户隐私裸奔;误判,Agent 当场失忆。


这正是下一代个性化 Agent 最难绕开的矛盾。


MemPrivacy 登场

不是抹掉隐私,而是给隐私换一张「本地身份证」


记忆张量 MemTensor 团队提出的 MemPrivacy,核心思路叫做:本地可逆伪匿名化


它不是把隐私信息简单删除,也不是替换成无意义的星号,而是在端侧完成一次更精细的「偷梁换柱」。



整个流程可以拆成三步。


第一步,端侧上行脱敏


用户在手机、PC 等边缘设备上与 Agent 对话时,本地会先运行一个轻量级 MemPrivacy 模型。它负责识别对话中的隐私片段,并根据用户设置的保护等级进行处理。


如果文本里出现「我的血压今天是 160/110」,MemPrivacy 不会直接把它变成 ***,而是替换为类似 这样的细粒度类型化占位符。


真实血压值与占位符之间的映射关系,只保存在本地数据库里。


第二步,云端安全处理


云端大模型看到的是:「我的血压今天是 。」


它看不到 160/110 这个明文敏感数据,但依然知道这里是一个健康指标,因此可以继续进行推理、生成建议、形成记忆,甚至调用相关工具。


第三步,端侧下行恢复


当云端回复「您的血压 偏高」时,本地系统再把占位符恢复成真实数值,最终呈现给用户。


在用户体验上,这个过程几乎是透明的。


但在系统架构上,关键敏感数据从未真正离开本地。


这就是 MemPrivacy 最重要的设计:让云端看懂结构,但看不到明文


三种路线对比

无保护裸奔,全过滤失忆,MemPrivacy 保留智商


在端云 Agent 场景里,传统隐私保护大致有两种极端方案。


第一种是无保护。


用户原始数据直接上云。云端模型当然可以完整理解上下文,个性化效果最好,但健康数据、私人邮箱、家庭住址、账号凭证等敏感信息也会完整暴露。


在数据合规越来越严格的今天,这几乎是在走钢丝。


第二种是完全过滤。


所有隐私内容都被替换成 *** 或直接删除。看起来很安全,但代价是 Agent 彻底失去关键语义。用户想让它记住健康状况、财务约束、工作上下文,它却只能看到一片空白。


这类 Agent 看似安全,实际上已经丧失了「长期个性化」的基础。



MemPrivacy 选择的是第三条路:细粒度类型化占位符


云端不知道你的真实血压是多少,但知道这是一个健康指标;不知道你的私人邮箱是什么,但知道这里有一个邮箱;不知道你的 API Key 明文,但知道这里是一个高危凭证。


这种设计保住了两个东西:一是隐私边界,二是语义结构。


也正因如此,MemPrivacy 才有机会在隐私保护和 Agent 效用之间取得平衡。


硬核实力

F1 分数甩开 OpenAI 超 50 点,完爆 GPT-5.2


为了验证 MemPrivacy 的能力,研究团队构建了一个新的评测基准 MemPrivacy-Bench。这个基准覆盖 200 个用户的对话历史,包含超过 15.5 万个隐私项,并支持中英双语隐私信息检测。


此外,为了测试泛化能力,团队还在外部个性化长文本对话数据集 PersonaMem-v2 上进行了 OOD 交叉测试。


在这两大基准的提取准确率(隐私文本、级别、类型的综合 F1 分数)较量中,MemPrivacy 均展现出了碾压级的优势:



远超 OpenAI 专项模型:


在 MemPrivacy-Bench 上,OpenAI privacy-filter 的综合 F1 分数只有 35.50%


而 MemPrivacy-4B-RL 达到了 85.97%,两者差距高达惊人的 50.47%!即使是在跨分布的 PersonaMem-v2 数据集上,MemPrivacy 依然领先 OpenAI 近 9%。


原因也很清楚:OpenAI privacy-filter 的优势在速度,非自回归 Token 分类架构带来了很高吞吐量;但它的问题在于标签覆盖窄、颗粒度粗,对复杂上下文和中文场景的适配不足。


MemPrivacy 则针对 Agent 长记忆场景重新定义了隐私类型、保护级别和训练目标,因此在真实对话中更接近实际需求。


更有意思的是,MemPrivacy 不只是赢了 OpenAI 的专项小模型。


越级挑战通用大模型:


即使面对参数量极其庞大的最强通用模型 GPT-5.2、Gemini-3.1-Pro 以及 DeepSeek-V3.2-Think,MemPrivacy-4B 乃至仅有 0.6B 的微型版本在两个数据集上均实现了碾压。


这说明,隐私提取不是简单堆大参数就能解决的问题


它更像一个高度结构化、强约束、强边界感的任务。真正重要的不是模型有多大,而是它是否理解「什么信息该被保护、该保护到什么程度、保护后还能不能继续被 Agent 使用」。


不让 Agent 变傻

系统效用损失最低不到 1%


隐私保护还有一个更现实的问题:保护得再好,如果 Agent 变傻了,也是白搭。

这也是很多粗暴脱敏方案的死穴。


用户说:「我最近血压偏高,帮我记住,以后安排运动计划时注意一点。」


如果系统把血压、健康状态、运动偏好全部抹掉,云端模型当然安全了,但它也没法再提供真正个性化的服务。


MemPrivacy 的类型化占位符真的能保留记忆系统的效用吗?


团队在业界几个主流记忆系统平台上进行了端到端测试。所有底座均采用统一的 GPT-4.1 模型。



实验结果令人振奋:


  • 当采用传统的不可逆掩码(Irreversible Masking)时,三大记忆系统的准确率分别暴跌了 26.67%、41.87% 和 16.99%,模型几乎处于失忆的瘫痪状态。

  • 在 MemPrivacy 保护下(最高防御级别 PL4+PL3+PL2 全开),系统效用损失被死死控制在 0.71% ~ 1.60% 之间。如果用户仅选择保护最高风险的凭证级隐私(PL4),准确率下降甚至不到 0.89%


这意味着,MemPrivacy 真正做到了在不伤害智能体智商的前提下,把隐私泄漏风险降到了最低。


这正是 MemPrivacy 的关键价值:它不是在「安全」和「智能」之间二选一,而是试图把两者拆开 —— 明文不上云,但语义仍然可用。


四级隐私树

终于把「什么是隐私」讲清楚了


MemPrivacy 能做到这一点,背后一个重要原因是:它没有把隐私当作一个简单的二分类问题。


传统隐私过滤常常是「要么脱敏,要么全明文」。但真实世界远比这复杂。


MemPrivacy 引入了以可识别性、潜在危害性与可利用性为准绳的四级隐私分类法 (PL1-PL4),从而支持用户根据需求自由调控脱敏阈值:



PL4 致命核心级(最高警戒凭证与机密)


这一层包括明文密码、验证码、Session、Cookie、API Key、内部商业机密等。一旦泄露,就可能导致账户接管、资金盗刷、系统越权或大规模数据泄露。


这类数据一旦检测到,系统将实行 “绝对零容忍” 拦截,严禁进入云端上下文。


PL3 高危敏感级(引发生命财产风险的红线数据)


包括身份证件号、详细医疗诊断、生理指标、精准轨迹定位、生物特征、敏感消费记录等。它们不一定直接等于账号权限,但足以对人身安全、财产、健康和声誉造成实质伤害。


PL2 身份锚定级(可溯源的标识信息)


包括真实姓名、详细地址、手机号、私人邮箱、IP 地址、社交账号等。单独或组合起来,可以定位到具体自然人。尤其是「公司 + 职位 + 姓名」这类组合,在真实场景中也具备很强的可识别性。


PL1 基础画像级(安全可用的个性化基石)


包括作息习惯、兴趣偏好、非诊断性情绪、表达风格等。这类信息是个性化 Agent 的基础,一般不会带来实质伤害,因此可以安全用于长期记忆。


这套分层设计的意义在于 —— 它让隐私保护不再是一把锤子。


同样是消费记录,「在超市花了 86 块钱」可能只是日常偏好;但某笔带有明确医疗属性的消费,则可能进入 PL3。


同样是数字,有些只是普通计数,有些却是血压、身份证号、验证码或 API Key。


这就是细粒度隐私识别真正困难的地方:模型必须理解语义、上下文、风险和用途。


两阶段训练

让模型真正理解隐私边界


在模型训练上,MemPrivacy 采用了 Qwen3 系列作为基座,覆盖 0.6B、1.7B、4B 多个规格。


训练过程分为两个阶段。


第一阶段是 SFT。


团队使用 26K 高质量多轮对话数据进行监督微调,让模型掌握基础的隐私定位、类型识别和占位符替换能力。


第二阶段是 GRPO 强化学习。


团队引入基于结构化 Reward 的策略优化,用提取结果的 F1 分数直接反馈模型表现。


这一步的意义在于,隐私识别最难的往往不是显而易见的手机号或邮箱,而是边界模糊、依赖上下文的细粒度信息。


比如一句「我最近压力很大」是否需要脱敏?


一句「我的血压今天 160/110」又该被划到什么级别?


某个字符串到底是普通 ID,还是内部凭证?


GRPO 让模型在这些模糊边界上进一步优化召回率与精确率的平衡,最终带来了 MemPrivacy 在多个测试集上的明显优势。



结语

端云 Agent 的下一块基础设施


在万物皆可 Agent 的未来,大模型比你更懂你自己是必然趋势,但比你更懂你,不代表让云端看光你。


OpenAI privacy-filter 的发布敲响了数据清洗和隐私合规的发令枪;而记忆张量与荣耀 AI 联合发布的 MemPrivacy,则为下一代云边协同架构(Edge-Cloud Agents)提供了一套直接可用、高精度、低损耗的标杆级工程解法。无论是对于开发个人 AI 助理的 AI Builders,还是对于需要满足严苛数据合规(如 GDPR)的企业级出海应用,MemPrivacy 都展现出了不可估量的商业与技术价值。


在这件事上,荣耀并不是一个偶然出现的合作方。从 MagicOS 到 YOYO,荣耀一直在尝试把更多 AI 能力真正放进设备本身。这也是为什么 MemPrivacy 的方案会和荣耀的端侧 AI 路线天然契合。


MemPrivacy 在荣耀终端设备上的落地,则是这次合作的进一步延伸:0.6B 到 4B 的多档模型本身就是为端侧部署设计的。当越来越多人开始习惯通过 YOYO 这样的 Agent 完成健康、出行、工作甚至财务相关的任务时,用户真正需要的,其实是一个 “既懂你、又不会看光你” 的 AI。


对端云 Agent 来说,“可记忆” 之后,“可安全记忆” 正在成为下一阶段真正的基础设施问题。


目前,MemPrivacy 的模型权重与评测基准已全部开源。隐私与长期记忆之间那道过去几乎无法兼得的墙,也第一次开始出现了被打通的可能。


  • 论文地址:https://arxiv.org/pdf/2605.09530

  • 代码仓库:https://github.com/MemTensor/MemPrivacy

  • 模型仓库:https://huggingface.co/collections/IAAR-Shanghai/memprivacy



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


为了应付老板的Token消耗KPI,亚马逊员工竟这样做...

2026-05-15 10:02:00

机器之心编辑部


如果要评选今年 AI 圈最猎奇的新闻,「将 token 消耗纳入绩效考核」这条绝对能进决赛圈。


正所谓「用魔法打败魔法」,打工人们也自有应对之道。


近期,亚马逊西雅图总部的员工们发现了一条升职加薪(或者至少是不被开除)的捷径:用 AI 工具来……伪造自己在用 AI 工具的证据。



这个操作,行业里已经有了专属名词——「tokenmaxxing」(Token 最大化)。


事情的起源并不复杂。


亚马逊立下了一个宏大的 KPI:要求超过 80% 的开发者每周必须使用 AI 工具。更让人窒息的是,公司在今年早些时候甚至推出了一个「内部 AI Token 消耗排行榜」。


排行榜一出,画风立刻变了。


「大家现在压力山大,」一位不愿透露姓名的亚马逊员工在接受采访时无奈地说,「有些同事纯粹就是为了最大化他们的 Token 用量,硬生生地用工具在那儿『刷』。」


尽管亚马逊官方信誓旦旦地保证,这些 Token 统计数据「绝对不会用于绩效评估」。但混迹职场多年的打工人显然不吃这一套。另一位现任员工一针见血地指出:「经理们全盯着看呢。一旦开始追踪使用情况,就会产生扭曲的激励机制。现在有些人在这上面胜负欲爆棚。」


于是,亚马逊内部新上线的 AI 工具「MeshClaw」意外成了刷榜神器。


MeshClaw:打工人的「刷分外挂」


这场「刷榜狂欢」的核心,是一款名为 MeshClaw 的亚马逊内部 AI 产品。


这款工具的灵感来源于今年 2 月爆火、允许用户在本地硬件上运行代理的 OpenClaw。据内部文件描述,MeshClaw 的功能相当强大:它可以自动部署代码、对电子邮件进行分类,甚至还能替你在 Slack 上和同事谈笑风生。


亚马逊内部备忘录对这款机器人有着极其诗意的描述:「它会在夜间做梦以巩固所学知识,在你开会时监控代码部署,并在你醒来之前处理好你的收件箱。」


但现实却充满了黑色幽默:打工人们并不在乎它夜里做什么梦,他们只在乎这玩意儿一晚上能帮自己刷出多少 Token。亚马逊官方声明称,该工具让「成千上万的亚马逊人每天能够自动化重复性任务」,是公司赋能团队的绝佳范例。但实际上,它可能正在自动执行一些根本不需要执行的废话任务,只为冲刺排行榜。


2000 亿美元的焦虑与「变形」的 KPI


这场荒诞剧的背后,是科技巨头们难以掩饰的「投资焦虑」。


预计亚马逊今年的资本支出将高达惊人的 2000 亿美元,其中绝大部分将砸向 AI 和数据中心基础设施。


当一家公司在某项技术上烧了这么多钱时,管理层不可避免地需要看到「回报」。如何向董事会和股东证明这笔钱花得值?最直接的办法就是:强制全员使用。


不仅是亚马逊,这种现象正在整个硅谷蔓延。据报道,Meta 的员工同样在沉迷于「Tokenmaxxing」,为了在内部排行榜上争个高低而绞尽脑汁。


目前,或许是意识到了这种「唯 Token 论」的荒谬性,亚马逊已经悄悄限制了数据的访问权限,现在只有员工本人和其直属经理才能看到这些统计数据,并开始「不鼓励」经理们将其作为考核标准。但这头已经放出来的「内卷巨兽」,似乎很难轻易关回笼子。


安全隐患:「默认设置让我感到恐惧」


除了造假 KPI 之外,「Tokenmaxxing」还引发了另一个更令人担忧的问题:失控的 AI Agent。


为了刷 Token,员工必须赋予 AI 工具极高的权限,让它代为执行操作。这种为了刷数据而放任 AI「自由奔跑」的行为,无疑是巨大的安全隐患。如果代理出现错误或执行了意外操作,后果不堪设想。


「它的默认安全设置真的让我感到恐惧,」一位亚马逊开发人员对我们坦言,「我绝对不可能放任它自己跑到系统里去为所欲为。」


科技的初衷,是把人从无意义的重复劳动中解放出来。


但「Tokenmaxxing」这件事,呈现出一个格外讽刺的赛博朋克现实——我们造出了世界上最聪明的 AI,然后用它创造了一种全新的、毫无意义的重复性劳动:假装自己正在努力使用 AI。


对此你怎么看?


参考链接:https://arstechnica.com/ai/2026/05/amazon-employees-are-tokenmaxxing-due-to-pressure-to-use-ai-tools/



图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


RSS-2026 | 港科大(广州)开源首个无需训练的开放词汇3D占据地图构建系统

2026-05-15 10:02:00


从第一视角观测中持续重构三维世界,并理解空间中的几何结构与开放语义信息,是机器人具身感知领域的核心问题。语义占据预测(Semantic Occupancy Prediction) 通过将空间划分为三维体素网格,并为每个体素估计 “空闲、占据、未知” 状态及其语义类别,为机器人的空间推理、导航避障与交互操作提供统一的基础场景表达。


然而,现有三维占据预测方法仍高度依赖大规模三维占据标注、语义标注以及精确相机位姿等训练数据。在真实开放环境中,这些假设往往难以成立:当机器人进入全新场景时,通常不存在预先标注好的三维几何与语义真值,也缺乏可靠的全局相机轨迹,更不可能针对每个新环境重新采集数据并训练模型。因此,构建具备强泛化能力、能够在开放真实环境中实现语义占据预测的感知系统,已成为推动具身智能体从 “被动感知” 迈向 “主动理解” 的关键基础。


近期,香港科技大学(广州)陈昶昊教授团队联合穆罕默德・本・扎耶德人工智能大学(MBZUAI )研究者提出 FreeOcc。该工作已被机器人领域旗舰会议 Robotics: Science and Systems (RSS 2026) 接收,源代码和数据集均已开源


FreeOcc 是首个无需训练(training-free)的开放词汇三维占据预测系统,仅基于单目或 RGB-D 图像序列,在线构建全局一致的开放词汇三维占据地图。在 EmbodiedOcc-ScanNet 数据集上,FreeOcc 无需任务特定训练,单目版本达到 31.29 IoU / 13.86 mIoU,RGB-D 版本达到 34.40 IoU / 15.84 mIoU,相较现有自监督学习方法在 IoU 与 mIoU 指标上均实现超过两倍提升。在团队进一步构建的跨数据集泛化基准 ReplicaOcc 上,FreeOcc 的 RGB-D 版本取得了 55.65 IoU / 20.90 mIoU 的性能,而现有监督与自监督方法几乎无法实现零样本泛化。



  • 论文标题:FreeOcc: Training-Free Embodied Open-Vocabulary Occupancy Prediction

  • 论文地址:https://arxiv.org/abs/2604.28115

  • 项目主页:https://the-masses.github.io/freeocc-web/

  • 项目代码:https://github.com/the-masses/FreeOcc

  • 数据链接:https://huggingface.co/datasets/the-masses/ReplicaOcc


实现具身场景中 “无需训练” 的开放词汇语义占据预测,其核心难点在哪里?


近年来,基于端到端模型的语义占据预测在引入占据真值监督后,已经能够在特定场景中取得较高的几何与语义精度。然而,在 LegoOcc (CVPR-2026) 提出之前,大多数方法仍只能在预定义的封闭类别集合中进行推理。LegoOcc 将开放词汇能力引入室内单目占据预测,使模型能够响应任意自然语言查询,从而让端到端占据预测具备了初步的语言理解能力。


基于监督学习的端到端占据预测方法依然存在瓶颈:它们高度依赖高质量三维占据真值标注,并且在场景发生变化时泛化能力显著下降。一旦进入未见过的新场景,模型的几何与语义预测性能往往会迅速退化。而当前具备高质量占据真值标注的室内具身场景数据集,仍主要局限于基于 ScanNet 构建的 OccScanNet 与 EmbodiedOcc-ScanNet,数据资源极为稀缺。


因此,监督学习范式下的端到端占据预测,始终面临两座难以跨越的大山:


1. 三维标注成本极高:高质量占据真值需要经过三维重建、体素化与逐体素语义标注等复杂流程,其成本远高于传统二维图像标注,难以大规模扩展。

2. 跨环境泛化能力不足:监督学习方法容易过拟合特定数据集中的相机内参、尺度分布、外观风格以及标签体系。一旦迁移到新的场景或传感器配置,语义与几何预测都会出现明显退化。


FreeOcc 的核心思想正是:不再训练一个面向特定数据集的占据预测神经网络模型,而是构建一个能够让智能体 “无需训练” 即可在任意环境中在线预测占据地图与开放词汇语义的通用感知系统。


作为首个无需训练的通用开放词汇占据预测框架,FreeOcc 在系统设计与评估过程中面临一系列挑战:


1. 3DGS 表达与占据预测目标之间存在较大差异:FreeOcc 采用 SLAM 作为定位与建图主干。现有耦合式 3DGS-SLAM 方法在效率与建图精度之间往往难以兼顾,而继承点云 SLAM 全局一致性的解耦式 3DGS-SLAM,则更关注多视角渲染质量,而非体素空间中的几何一致性。若直接将现有 3DGS 表示用于体素级占据预测,会出现几何边界不稳定、局部结构漂移以及全局拓扑不规整等问题。如何将面向渲染的 3DGS 表达转化为面向空间推理的三维占据表示,成为一个新的研究问题。


2. 缺乏适用基于占据的 SLAM 系统的统一评估机基于 SLAM 的系统评估通常需要进行 Sim (3) 或 SE (3) 对齐。然而,在标准 3DGS 优化过程中,系统会联合更新位置 (x,y,z)、旋转、尺度、透明度、颜色、球谐系数(SH)以及 densify / split / prune 等参数。优化后的高斯场几何已经不再是单纯 “由相机位姿驱动” 的刚性或相似结构,而是被优化器不断局部重塑的自由场。当轨迹、尺度或坐标系发生变化时,仅施加群变换虽然在数学上成立,却往往无法完全吸收训练过程中累积的局部补偿误差,通常仍需进一步重优化。


3. 缺乏能够评估开放世界泛化能力的数据基准目前具身场景中的占据预测评测主要依赖 EmbodiedOcc-ScanNet 与 OccScanNet。然而,OccScanNet 在构建过程中将大量类别合并为 “furniture” 与 “objects”,导致现有评测难以真正量化开放词汇场景中的语义理解能力,尤其难以准确评估开放类别下的 mIoU。仅依赖传统数据集与封闭类别评测,已经无法衡量下一代开放词汇占据系统的真实能力。


为此,FreeOcc 建立了统一框架:既能够继承 SLAM 的全局一致性几何,又能够利用 3DGS 的稠密表达能力,同时融合开放词汇语义理解,并支持可对齐、可泛化、可量化的评估机制。


FreeOcc 框架介绍



FreeOcc 将在线开放词汇占据预测拆解为四层模块化地图表示,并在机器人观测过程中持续进行联合更新:


1. 点云地图:基于视觉定位与建图系统(SLAM),从单目或 RGB-D 图像序列中估计相机位姿,并构建全局一致的半稠密点云。

2. 3DGS 地图:以 SLAM 点云为几何锚点初始化并更新 3D 高斯,通过连续场表示补充稀疏几何结构。

3. 语义地图:利用预训练视觉语言模型提取开放词汇语义特征,并将语言对齐特征关联到高斯基元(Gaussian primitives)。

4. 占据地图:通过概率式 高斯至占据(Gaussian-to-Occupancy) 投影,将带语义的高斯表达转换为稠密体素占据地图,从而支持任意文本查询。


(1)SLAM 提供全局一致的几何锚点


FreeOcc 首先利用 SLAM 系统处理输入图像序列,实时估计相机位姿并重建三维点云。正文采用 DROID-SLAM,利用其在单目输入条件下较强的全局几何一致性。补充实验中还进一步验证了 MASt3R-SLAM 与 VGGT-SLAM 作为骨干模型时的性能表现。SLAM 输出的相机轨迹与点云,为后续高斯地图提供统一坐标系,为占据地图的长期一致性构建几何基础。


(2)几何一致的 3D 高斯构建


传统 3DGS-SLAM 方法更擅长把图像渲染正确,却未必真正把几何结构建精准。由于 3DGS 的优化目标主要服务于新视角渲染,只要最终渲染出的 RGB 与深度结果足够合理,高斯的位置、尺度与透明度往往可能存在多种等价解。这种几何歧义在新视角合成任务中并不明显,但一旦用于三维占据预测,就会直接导致几何边界模糊、薄结构漂移、全局空间结构不稳定以及体素语义分布不连续等问题。


针对这一挑战,FreeOcc 提出了几何感知初始化(Geometry-aware Initialization,G-ini)与几何锚定高斯更新(Geometrically Anchored Gaussian Updates,GAGU)。不再允许高斯在优化过程中自由漂移,而是始终将高斯的几何中心锚定在 SLAM 重建得到的三维点上。在初始化阶段,系统进一步沿观测射线方向对高斯进行各向异性展开,使其形状天然符合真实成像几何,而不仅仅服务于渲染误差最小化。通过这一设计,FreeOcc 构建出的高斯地图能够实现高质量渲染,更能够保持长期稳定的几何一致性,从而适用于体素级空间推理与开放词汇占据预测。


(3)开放词汇语义关联


FreeOcc 并不训练固定类别的语义分类头,直接利用预训练开放词汇视觉语言模型,从二维图像中提取语言对齐语义特征。系统基于 SLAM 提供的几何对应关系,将二维像素级语义嵌入提升到三维高斯基元(Gaussian primitives)上,从而形成携带语言信息的语义高斯基元(language-embedded Gaussians)。


因此,每一个高斯基元不仅包含位置、尺度、不透明度和颜色等几何与外观属性,同时还携带开放词汇语义特征。当用户输入任意文本类别时,系统即可通过文本编码器生成对应的查询语义向量(query embedding),并与三维空间中的语言特征进行相似度匹配,实现文本驱动的三维语义定位。


(4)高斯基元到占据地图的概率投影


FreeOcc 将连续的高斯地图投影到离散体素网格中,从而生成最终的三维占据地图。对于每一个体素位置,系统都会检索其邻域范围内的高斯体,并根据高斯体的空间支持范围计算该体素被占据的概率。同时,系统通过局部高斯混合模型(Gaussian mixture)的后验责任传播语义特征,使语义信息能够稳定映射到三维体素空间。


最终输出同时包含两个部分:1)几何占据概率,即该体素是否被物体占据;2)开放词汇语义分数,即该体素与任意文本类别之间的匹配程度。FreeOcc 最终生成一张能够被任意自然语言查询的开放词汇三维占据地图。


实验结果


论文从 EmbodiedOcc-ScanNet、ReplicaOcc、三维高斯泼溅 SLAM 主干对比、组件消融实验、开放词汇查询以及真实机器人部署等多个角度,对 FreeOcc 的性能进行了系统验证。


(1)在 EmbodiedOcc-ScanNet 上,无需训练即可超过自监督方法两倍以上



在 EmbodiedOcc-ScanNet 数据集上,现有自监督方法 GaussianOcc 与 GaussTR 虽不依赖语义占据监督,但仍需要真实相机位姿作为输入,分别取得 10.17/4.34 与 15.63/4.95 的 IoU/mIoU 性能。FreeOcc 在完全不使用占据真值标注、语义标注以及真实相机位姿作为输入的情况下,依然取得更好性能:单目输入达到 31.29 IoU / 13.86 mIoU,RGB-D 输入达到 34.40 IoU / 15.84 mIoU。无论在几何 IoU 还是语义 mIoU 指标上,均超过现有自监督基线两倍以上,展示了无需训练(training-free)范式在开放世界占据预测中的潜力。


(2)构建 ReplicaOcc 基准数据集,验证跨数据集零样本泛化能力


为了进一步验证模型是否真正具备跨环境泛化能力,论文构建了 ReplicaOcc Benchmark。该数据集基于 Replica 场景构建,采用与 ScanNet 类似的 RGB-D 序列组织方式,并提供全局占据真值,用于评估开放词汇具身占据预测。



与 EmbodiedOcc-ScanNet 中仅包含 11 个粗粒度类别不同,ReplicaOcc 引入了更加细粒度的语义类别体系,因此能够更有效地检验模型的开放词汇语义理解能力。论文展示了 8 个 ReplicaOcc 场景的可视化结果。



(3)在 ReplicaOcc 上,学习式方法迁移失败,而 FreeOcc 保持强泛化能力



在零样本(Zero-shot)跨数据集迁移设定下,学习式方法从 EmbodiedOcc-ScanNet 迁移到 ReplicaOcc 后出现明显性能崩溃。监督方法 EmbodiedOcc 的语义 mIoU 几乎降为 0,而自监督方法 GaussianOcc 与 GaussTR 几乎无法生成有效语义占据结果。


相比之下,FreeOcc 由于不依赖特定数据集训练,能够直接迁移至全新环境,并保持稳定性能。其中,单目输入达到 46.81 IoU / 16.93 mIoU,RGB-D 输入达到 55.65 IoU / 20.90 mIoU。说明,FreeOcc 减少了三维标注成本,避免了学习式占据预测模型对单一数据集、固定标签体系以及特定场景分布的过拟合。


(4)几何一致高斯更新优于现有 3DGS SLAM 



为便于对比,将不同 3DGS-SLAM 系统生成的高斯地图统一转换为占据体,并在 ReplicaOcc 和 EmbodiedOcc-ScanNet-mini 上评估几何 IoU。FreeOcc 在单目和 RGB-D 设置下均取得最佳平均 IoU:

  • 单目平均 IoU:39.34,优于 Photo-SLAM、MonoGS、DROID-Splat;

  • RGB-D 平均 IoU:45.24,优于 SplaTAM、GS-ICP、RTG-SLAM、MonoGS、DROID-Splat 等方法。


FreeOcc 的高斯更新策略并不是简单复用 3DGS-SLAM,围绕 “占据预测” 这一目标,重新设计了更加稳定且适用于空间推理的高斯几何表示。


(5)消融实验



消融实验显示,如果移除几何锚定高斯更新(GAGU)和 几何感知初始化(G-ini),系统在精度和效率上都出现明显下降。在 RGB-D 设置下:

  • 无 GAGU、无 G-ini:27.98 IoU / 11.20 mIoU / 8.8 FPS

  • 加入 GAGU:40.18 IoU / 16.03 mIoU / 25.0 FPS

  • 完整 FreeOcc:45.03 IoU / 18.37 mIoU / 24.6 FPS


这表明 GAGU 提升了长期几何一致性以及建图效率,使 FPS 从 8.8 提升到 25.0;而 G-ini 进一步改善高斯初始化质量,在几乎不牺牲运行速度的情况下,将占据预测精度进一步提升到 45.03 IoU / 18.37 mIoU


(6)开放词汇查询,支持任意文本的三维目标定位



FreeOcc 具备三维场景开放词汇查询能力,能响应任意自然语言文本,并在三维占据地图中定位对应目标。例如,在 ReplicaOcc 场景中,系统可以根据 “篮子”“时钟”“室内绿植”“挂画” 等文本查询,在三维占据地图中准确定位对应区域。这些尺寸较小、语义粒度细、类别开放的目标,而传统封闭类别的占据预测方法难以覆盖。


进一步在 ReplicaOcc 数据集上进行定量评估。FreeOcc 在开放词汇 top-10 类别上取得了 31.06 mIoU;当词汇表进一步扩展到 top-20、top-30 和 top-40 类别时,仍达到 23.02、16.57 和 12.01 mIoU。随着语义类别规模不断扩大,FreeOcc 依然能保持较好的开放词汇语义理解能力,展现更强的可扩展性。



(7)可视化结果:几何和语义预测更完整



可视化结果显示,跨数据集时,现有学习式占据预测方法往往会生成不完整、破碎,甚至接近空白的占据地图;而 FreeOcc 则能够保持更加连贯的房间结构、更稳定的空间边界以及更加合理的语义占据分布。相较于现有 3DGS SLAM 方法,FreeOcc 在物体边界、薄结构恢复以及整体空间完整性方面也展现更强的稳定性。


真实场景部署



FreeOcc 直接部署到真实 RGB-D 传感器数据流中。使用 Intel RealSense D435i 深度相机进行在线数据采集,在 Intel i9-14900KF + RTX 5090 平台上运行完整系统。整套系统直接接收实时 RGB-D 数据流,无需预录轨迹、真实相机位姿、封闭类别标签或离线优化。



在真实室内与室外场景中,FreeOcc 能够持续构建三维高斯地图,并将开放词汇语义稳定投影到占据地图中。为获得场景级开放词汇标签,在真实部署过程中进一步引入 Qwen3-VL 多模态视觉语言模型,从输入 RGB 图像中自动生成可见物体类别,再将这些语义线索接入 FreeOcc 系统重,实现开放词汇语义地图构建。


细粒度真实场景实验,面对桌面上外观相似但颜色不同的多个杯子,FreeOcc 能够根据 “红色杯子”“黄色杯子”“蓝色杯子” 等自然语言查询,准确区分并定位对应目标。



在线增量建图过程


随着机器人持续观测,FreeOcc 不断更新的多层地图表示。 论文展示了 ScanNet 与真实室外场景中的在线增量建图过程:随着输入图像不断增加,点云地图逐渐补全,三维高斯地图变得更加稠密,语义地图持续融合新的开放词汇特征,最终占据地图逐步形成更加完整、全局一致的三维空间表达。



展望与意义


FreeOcc 开创了一条不同于传统端到端学习占据预测模型的新路线。FreeOcc 不依赖大规模三维占据标注,也不要求推理阶段输入真实相机位姿,而是有效结合 SLAM 几何与位姿、连续三维高斯表示、开放词汇视觉语言模型以及体素占据投影,使机器人能够从第一视角观测中持续构建全局一致的开放词汇三维占据地图。


FreeOcc 的开放词汇占据地图不仅让机器人看见环境几何结构,更进一步支持机器人理解环境。例如,当用户提出 “台灯在哪里”“红色杯子在哪里” 等自然语言问题时,机器人能够直接在三维空间中定位目标区域,并进一步将结果用于导航、避障、抓取以及人机交互等下游任务。未来,当机器人进入一个全新房间时,不再需要重新训练或调整占据预测模型权重,而是直接依靠自身传感器,在线增量构建三维占据地图,并逐步理解环境中的物体与空间关系。


作者与机构


江泽宇:香港科技大学(广州)博士生,主要研究方向为高效的空间物理智能体,专注于将通用空间智能注入现实开放环境的具身应用场景。


周常青:香港科技大学(广州)博士生,致力于高效且稳定的三维场景理解方法研究,当前重点关注端到端轨迹生成模型,以及面向导航任务的高效世界模型构建。


左星星:阿联酋穆罕默德・本・扎耶德人工智能大学(MBZUAI)机器人系助理教授。研究方向为移动机器人感知、3D 计算机视觉、具身智能、多传感器融合等。受邀当选为机器人领域顶刊 T_RO 和著名期刊 RA-L 的编委 (Associate Editor),和机器人顶会 RSS, IROS, ICRA 的编委。


陈昶昊(通讯作者):香港科技大学(广州)智能交通学域和人工智能学域助理教授,博士生导师,香港科技大学跨学科学院联署助理教授,从事具身智能感知、导航与交互研究,组建港科大(广州)PEAK-Lab 课题组并担任独立 PI。



图片


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]