MoreRSS

site icon机器之心修改

中文人工智能垂直媒体。由kindle4rss生成。
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

机器之心的 RSS 预览

全奖读AI!人工智能专业排名全球前10的MBZUAI启动本硕博项目招生

2025-09-04 12:07:00

机器之心发布

机器之心编辑部


在阿联酋 2031 国家人工智能战略的驱动下,穆罕默德・本・扎耶德人工智能大学(MBZUAI) 正以 AI 专业学术全球排名前十的硬实力,重塑 AI 教育格局。这所由阿联酋总统创立的学术引擎,不仅承载着中东向科技转型的雄心,更以丰厚奖学金覆盖所有学位项目,为全球优秀人才铺就一条通往未来的黄金大道。



迎向未来:国家战略背书的 AI 学术高地


2017 年,阿联酋总统穆罕默德在石油经济腹地播下一颗 AI 种子 —— 启动了《阿联酋人工智能战略 2031》(UAE National Strategy for Artificial Intelligence 2031),目标是在 2031 年使阿联酋成为全球人工智能领域领导者。


  • 在能源、物流、旅游、医疗、教育、网络安全等九大优先行业部署人工智能,通过概念验证资金和政府 — 企业联合试点,提升国家核心竞争力。

  • 引入全球顶尖科研力量,共建 MBZUAI(全球第一所专注于研究人工智能的大学)、国家虚拟研究院、“思想家计划” 等,形成区域人才高地。

  • 通过设立加速器、20 亿迪拉姆创新基金、外资激励计划,培育本土初创企业,吸引外国直接投资。

  • 打造 “UAI” 国家品牌与四级认证体系(公共 / 私营 / 机构 / 产品),推动阿联酋成为全球人工智能首选目的地。

  • 建立全球首个 “人工智能政府专门委员会”(IPCC for AI),制定伦理、法律、网络安全三位一体的国家治理体系,并向全球输出阿联酋标准。

  • 预计到 2031 年,人工智能产业将为阿联酋带来 3350 亿迪拉姆的额外经济产出,相当于非石油 GDP 的 20%。


《阿联酋人工智能战略 2031》全文:https://ai.gov.ae/wp-content/uploads/2021/07/UAE-National-Strategy-for-Artificial-Intelligence-2031.pdf


在国家战略支持下,MBZUAI 作为全球第一所人工智能大学,自 2019 年 10 月筹备以来,吸引了世界各地的顶尖学者、研究人员和天才学生加入。今天,MBZUAI 在其专业领域排名已跻身全球前十之列(#10 by CS Rankings 2015-2025 in Artificial intelligence, Computer vision, Machine learning, Natural language processing, Comp. bio & bioinformatics, and Robotics),超越众多欧美传统名校。



塑造未来:MBZUAI 快速崛起的硬核实力


1、  顶配资源:从教授天团到硬件王牌


在阿联酋国家战略层面的高度重视和雄厚的资本支持下,MBZUAI 成立短短几年就吸引了来自 CMU、伯克利、MIT、佐治亚理工、哈佛、剑桥、慕尼黑工业大学等全球 AI 名校的逾百名顶尖学者前来任教。


由机器学习与生物健康领域的国际知名学者 Eric Xing 邢波校长领衔的教授天团包括:图灵奖获得者 Raj Reddy、美国三院院士 Michael Jordan 教授、曾任 MIT AI 实验室副主任的 Sir Michael Brady 教授、慕尼黑工业大学机器人与系统智能系主任 Sami Haddadin 教授、前 Google 用户体验总监 Elizabeth Churchill、东京大学知名教授 Yoshihiko Nakamura、自然语言处理专家 Timothy Baldwin 教授等。



根据来自南京外国语学校的张佳栋同学介绍:“今年 MBZUAI 的教职人数达到 120 人,师生比非常高,教授们能更直接地帮助每个同学。我一入学就与教授建立了每周一对一的讨论时间,来探讨关于 Optimization 的相关学习。可以说,不管你想学什么,都可以找到对应方向的顶尖大牛帮助你。”


同时,MBZUAI 也跟业界知名企业和实验室保持着密切交流,特聘讲师团汇聚了来自英伟达、谷歌、微软、亚马逊、Meta 等公司的行业专家,为学生和研究人员带来行业前沿的研究动态、应用经验和实践思考。


硬件上,阿联酋已经跻身世界 AI 算力强国之列,MBZUAI 配备了足以支撑世界级人工智能研究所需的计算能力基础设施,硬件实力不亚于谷歌等世界顶尖机构。MBZUAI 还通过其基础模型研究所(IFM)进行全球布局,在美国硅谷、法国巴黎以及阿布扎比都建立了实验室设施。这种 “多站点计划” 使其能够连接全球顶尖 AI 生态,并有助于整合利用不同地区的计算资源和人才资源,为学校在 AI 领域的可持续发展提供了坚实的硬件和软件基础。



2、  产研结合:技术 + 商业的密切链接


从创立之初,MBZUAI 注重理论与实践的结合。学校里很多教授不仅是老师,同时也是企业家、创业者或者大公司的高管。他们的研究方向并非纯粹的学术探索,而是更注重解决实际产业问题。


计算生物学方向的生命大模型研究、机器人方向的人脑控制机器人研究、计算机视觉专业生成虚拟现实的世界模型研究等 AI 前沿研究项目,让 MBZUAI 这个成立仅 5 年多的人工智能新秀持续成为全世界关注的焦点。截止发稿日,MBZUAI 在顶级期刊和会议上发表的总论文数已超过 2,000 篇。



本科项目的负责人 Hao Li 教授,既是计算机视觉领域的专家学者,也是好莱坞著名视觉特效公司 Pinscreen 的创始人兼 CEO,其设计的 “3+1” 学制,让来自全世界的天才少年们,在前三年接受到系统的人工智能学科教育,第四年则通过为期一年的实习或科研,形成链接真实世界的产业视角。


据在读学生介绍,不仅阿联酋当地的企业和 MBZUAI 有深度合作,在学校周边还有许多国际知名企业,实习机会非常多。学校的孵化器每周都有讲座,邀请各界商业领袖分享前沿的看法。



3、  光明前景:职业发展的黄金通道


得益于从始至终贯彻的产研结合,MBZUAI 的毕业生们前景一片光明。他们中既有人继续留在 MBZUAI 或是前往牛津大学、苏黎世理工等名校继续深造的学者,也有人选择入职大公司或自主创业,其中有近 90% 的毕业生留在阿联酋,硕士毕业生平均年薪 36 万迪拉姆(约 10 万美金)。考虑到阿布扎比的物价水平和发展机会,这个薪资水平的实际购买力含金量相当不俗。


值得一提的是,MBZUAI 招收的阿联酋本地学生中,不乏王室成员中的精英代表,学校还设有专门的团队为有创业意向的学生提供创业孵化指导和融资渠道支持,目前已经有多支学生团队拿到创业资金。从学术到产业,MBZUAI 致力于为人工智能人才铺设职业发展的黄金通道。



4、  未来之城:安全、多元与机遇的交汇点


MBZUAI 位于阿联酋首都阿布扎比。这座地处欧洲、亚洲和非洲交汇点的历史文化名城,拥有得天独厚的区位优势,连续多年被评为全球最安全的城市之一,犯罪率接近于零,社会环境稳定,对外国人友好且包容,近年来已经成为备受青睐的国际化都市和最具活力的世界商业中心之一。


作为阿布扎比发展版图上的闪耀明星, MBZUAI 汇聚了来自 47 个国家地区的天才学生。据在校学生分享,阿布扎比的安全、干净和现代化程度是可以跟国内一线城市媲美的,硬件设施好,宿舍宽敞舒适、网速很快、生活便利。在阿联酋本地人不多见,一般打交道的都是外国人,大家地位平等互相尊重即可,都说英语,也不用担心语言问题。值得一提的是,MBZUAI 学校的食堂品质很好,不仅供应当地菜系还有沙拉、披萨、汉堡等选择。如果吃不惯,阿布扎比也有温超,还有中餐厅可以配送盒饭,总能找到适合自己胃口的中国菜。


在读期间,学校会给每位学生办理签证,毕业后可由雇主办理十年黄金签证,且工资免税。安全、多元、充满机遇的国际化都市,也为选择 MBZUAI 的提供了未来发展的更多可能。



神仙打架:录取率 5% 的 AI 梦校


8 月,MBZUAI 迎来了 403 位新生,他们从 8,000 多名申请者中脱颖而出,阿联酋政府为 2025 年的所有学生提供了全额奖学金,覆盖学费、住宿费、医疗保险和签证费用。其中,本科生项目今年共收到超过 2,000 份申请,最终仅录取来自 25 个国家的 115 名学生,录取率不到 5%,难度不亚于英美名校。



这其中,不乏有全球数学、信息学、人工智能等领域的奥赛奖牌得主,比如来自希腊的 Kyriakos Tsourekas 同学,曾先后于 2024 和 2025 年获得 IMO 金牌和银牌,同时也是多次游泳和象棋比赛奖牌得主;来自俄罗斯的 Arthur Leontiev 同学,是 LeanTech AI Lab 的创始人,拒绝了美国 2 所牛校的全奖,选择了 MBZUAI;来自印尼的 Faiz Ramadhan 同学和来自印度的 Rayan Banerjee 同学,是 2025 国际人工智能奥赛银牌得主;来自北京十一中学的国家一级运动员 Alda Wang 同学,放弃了多个来自美国名校的 Offer,选择来 MBZUAI 攻读人工智能专业。


Alda 的妈妈曾在剑桥大学取得硕士学位,对于国际教育有着深刻清醒的认识,她在采访中表示,孩子入学后的体验 “超乎预期”。首先是学术方面,MBZUAI 的师资力量和师生配比在全球是顶尖的,很多课程采用分层小班教学,孩子在大一就能选到闫令琪教授这种级别学者的课,而且还有机会参与到课题组研究中,感觉很兴奋。相比之下,美国名校 STEM 相关课程大多数都还是上百人的大班教学,而提供小班教学的文理学院又没有计算机相关课程,对于有志于深耕人工智能领域的学生来说,MBZUAI 是一个很好的选择。其次在生活方面,学校提供的宿舍和食堂也让大家很满意。寝室硬件条件无可挑剔,入学时校方更是贴心地连床单、被子、枕头等床品都准备好了。家乐福超市步行可达,购物很便利。学校食堂自助餐只要约 50 元人民币,附近还有非常棒的亚洲餐厅。更惊喜的是,除了原本承诺的覆盖学费、住宿费、医疗保险和签证的奖学金之外,学校还额外提供了每月 3500 迪拉姆(约 7000 人民币)的津贴,以及往返机票的费用,让孩子们更有动力专注学习和研究。


来自中国的 NOI 信息奥赛银牌得主王学逸同学分享:“我高中阶段就对 CS 和 AI 的一些研究方向有初步了解,有较强的科研兴趣,希望本科阶段能探索科研方向、确认自己是否适合科研。MBZUAI 作为一所上升潜力巨大的研究型高校,科研资源丰富,特别是人均资源很充足,非常契合我的规划。相比传统高校,MBZUAI 对学生培养更加自由,鼓励课堂外探索(科研、实习、创业),允许学生免修已掌握课程,从而有更多时间学习高级知识或进行课外探索。”



全面开启:2026 年本硕博招生通道


2025 年 9 月,MBZUAI 开启了 2026 年秋季入学的本硕博招生通道,无需任何申请费用,并将继续为优秀人才提供丰厚的奖学金。


本科申请面向全球高中毕业生,在 MBZUAI 官网提交简历、成绩单、学校在读证明和个人陈述即可进行申请,还可提交奖项证书、推荐信等材料作为补充。在录取过程中,MBZUAI 不限地域、年龄、民族,主要寻求学业成绩优异兼具数学技能、沟通能力、领导力和创业精神的候选人,并将优先考虑有强大编程能力,在数理竞赛或商业竞赛获奖,或是在体育、艺术领域有杰出特长的候选人。



据 MBZUAI 教务长兼自然语言处理教授 Timothy Baldwin 介绍,本科课程分为两个方向 —— 工程和商科,前者侧重于人工智能模型的开发和部署,后者专注业务整合和创业。“工程专业更侧重于核心技术技能,例如自然语言处理等人工智能技能。商科专业则更侧重于创业能力、金融能力和沟通能力,但所有这些能力都与人工智能密切相关。MBZUAI 的目标是让学生从这些课程中培养创业思维,成为引领人工智能转型的人才。”


学士课程的学制是 4 年,第四年以行业实践为主,学生需要在企业、初创公司或研究所体验真实的行业、学术环境,本科生的最低学位要求为 120 个学分。


来自中国的 2025 级本科生杨永函同学介绍:“MBZUAI 的课程设置非常新颖,这里没有过多的传统课业,而是以人工智能为核心不断提供让我们接触前沿科研和跨学科应用的机会,还有大四一年的 Co-Op 实践我们的学识。虽然本科目前只有人工智能方向,但学校基于对本科生创业的愿景将人工智能大方向的课程分成了有很多交集的工程路径和商业路径。得益于较小的本科生人数,我跟这学期的教授都有频繁联络,我非常享受在教授 Office Hours 畅谈。教授们都非常厉害,让我同时了解了不同类型的天才,我也很想感谢他们分享、甚至带我参与他们感兴趣的学术问题中。”


研究生项目目前有计算机视觉、机器学习、自然语言处理、机器人、计算机科学、统计与数据科学六个专业,另外预计近期开设计算生物学和人机交互专业这两个新专业,要求申请人具有计算机 / 工程 / 数学 / 物理等人工智能相关理工类专业学历(GPA 3.2+),博士需提交研究计划,直博生需要提供论文或 GRE 成绩。据在读研究生分享,除了学费、医疗保险和签证费用全部由奖学金覆盖,研究生还额外享有每年 5 到 14 万美元津贴。强大的导师团队、雄厚的硬件实力再加上丰厚的资金支持,使得 MBZUAI 备受 AI 领域顶尖人才的青睐,往届研究生主要来自清华、北大、CMU、MIT、斯坦福等顶尖名校,竞争也相当激烈。


  • 本科申请时间:


ED 和 RD 申请开放日期:2025 年 9 月 1 日

ED 申请截止日期:2025 年 11 月 15 日

ED 录取最晚公布日期:2025 年 12 月 31 日

RD 申请截止日期:2026 年 4 月 30 日

RD 录取最晚公布日期:2026 年 6 月 15 日


提前决定(ED)申请是具有约束力的承诺。若被接受,申请人将承担法律和道德上的义务,必须加入 MBZUAI 并撤回所有其他申请。所有 ED 和 RD 申请都是滚动审核的,因此鼓励尽早提交。


大部分 ED Offer 将提供全额奖学金,RD 轮中的优秀申请者也将有机会获得全额奖学金。


  • 研究生申请时间: 

  • 优先申请期限: 2025 年 11 月 15 日

  • 最终截止日期: 2025 年 12 月 15 日

  • 录取截至日期: 2026 年 3 月 15 日


  • 官网申请:点击直达 (https://mbzuai.ac.ae)

  • 中国咨询:招生官阿布老师(微信 MBZUAIKEVIN,备注 “机器之心 2026”)

  • 特别通道:拿到本科 Offer 的候选人很有可能被邀请携家长到 MBZUAI 访校(中国往返阿布扎比机票 2 张及访校期间酒店费用均由校方提供)。


正如 Eric Xing 邢波校长所言:“我们正在重新定义人工智能教育的意义 —— 不只是培养工程师,更要培养企业家、设计师、影响力人物、高级管理者和远见卓识的创新者,让他们在各行各业推动人工智能发展。”



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



文章原文

长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman

2025-09-04 12:07:00

机器之心发布

机器之心编辑部


随着内容创作智能化需求的爆发,长时长、高质量数字人视频生成始终是行业痛点。近日,字节跳动商业化 GenAI 团队联合浙江大学推出商用级长时序音频驱动人物视频生成模型 ——InfinityHuman,打破传统音频驱动技术在长视频场景中的局限性,开启 AI 数字人实用化新征程。


从静态图像到动态视频:

音频驱动的 "数字复活术"


只需提供一张人物图像与对应音频素材,InfinityHuman 就能自动生成连贯自然的高分辨率长视频:无论是 30 秒的产品快推、还是 3 分钟的演讲致辞,均能实现专业级呈现。技术团队演示中,仅凭一段音频即可让电影中的人物复活 " 为动态数字人,视频效果生动自然,肢体动作与语音节奏高度同步。


该图由 AI 生成


核心突破:攻克长视频两大技术难关


InfinityHuman 的关键优势在于创造性解决了长期动画中的两大核心难题:


  • 身份漂移难题:通过 "姿态引导优化" 技术,以稳定的骨骼姿态序列为锚点,结合初始图像的视觉特征,确保数字人在长时间视频中保持面部特征、光影风格的一致性,避免传统技术中常见的 "越生成越不像" 问题。

  • 细节失真难题:精准捕捉并还原手部交互、面部微表情、情感起伏等细节,让数字人的手势动作自然流畅,情绪表达细腻真实,突破同类技术中 "手部僵硬"" 表情呆板 " 的瓶颈。


商用场景全面落地,推动数字人技术实用化


从项目主页展示的案例来看,InfinityHuman 已实现多场景商用级应用:


  • 电商带货中,虚拟主播可手持商品进行沉浸式讲解;

  • 企业培训中,虚拟讲师能完成长时间课程录制;

  • 自媒体创作中,数字人主播可实现每日内容量产。


尤其值得关注的是,该模型对中文语音的支持效果尤为出色,在分钟级长视频中仍能保持身份稳定与手部动作自然,充分满足中文内容创作需求。





技术细节与更多展示


如需了解更多技术细节和效果演示,可访问:



  • 论文项目主页:https://infinityhuman.github.io/

  • 技术报告:https://arxiv.org/pdf/2508.20210


方法概述


如图所示,InfinityHuman 是一个统一框架,旨在通过单张参考图像、音频和可选文本提示生成长时间、全身的高分辨率说话视频,确保视觉一致性、精准唇同步和自然手部动作。该框架采用 “由粗到细” 策略:先通过低分辨率音视频生成模块得到含粗略动作的低分辨率视频,再由姿态引导细化模块结合低分辨率视频和参考图像生成高分辨率视频,同时引入手部校正策略提升手部动作的真实感与结构完整性。


低分辨率音视频生成模块基于 Flow Matching 和 DIT,融合参考图像、文本、音频等多模态信息,通过多模态条件注意力机制增强音频与视觉的对齐;姿态引导细化模块利用参考图像作为身份先验,结合低分辨率视频及其姿态序列,通过前缀潜变量参考策略和姿态引导确保长时生成中的时序连贯性与外观一致性;手部特定奖励反馈学习则针对手部易出现的畸变问题,利用预训练奖励模型进行偏好微调,提升手部结构的合理性与真实感。



实验结果


实验结果表明,InfinityHuman 在音频驱动全身说话视频生成任务中表现优异。在 EMTD 和 HDTF 数据集上的评估显示,该方法在视觉真实感(FID)和时序连贯性(FVD)指标上均优于 FantasyTalking、Hallo3 等主流基线方法,生成视频的整体质量显著提升。身份一致性方面,通过姿态引导细化模块有效维持了与参考图像的相似度,解决了长时生成中的外观漂移问题。针对手部生成这一难点,手部特定奖励反馈学习显著提升了手部关键点的准确性,减少了手指畸变、关节异常等常见问题,尤其在复杂手势场景中表现稳定。


消融实验进一步验证了核心模块的有效性:移除姿态引导细化模块会导致视觉质量下降、身份一致性减弱,视觉细节模糊且时序连贯性降低;取消手部奖励机制则使手部关键点精度下降,手部失真现象明显增多。


综合定量指标和定性分析,InfinityHuman 在高分辨率、长时长视频生成任务中实现了真实感、一致性与动作自然度的全面提升。 



字节跳动 VIVID Avatar 团队:深耕音视频数字人技术,推动AI生成走向实用化


作为字节跳动旗下专注于音视频数字人生成的研发力量,商业化 GenAI 的 VIVID(Voice Integrated Video Immersive Digital)Avatar 团队始终站在技术前沿,致力于突破音频与视觉融合的技术边界。团队以 “让数字人更鲜活、更实用” 为目标,在语音合成与视频生成两大方向持续深耕,形成了从基础研究到商业化落地的完整技术链路。


语音合成方向,团队推出 MegaTTS3、Make-An-Audio 2 等模型,视频生成领域,从长视频模型 HumanDiT、NeurIPS 2024 收录的 MimicTalk 个性化 3D 建模,到 ICLR 2024 Spotlight 成果 Real3D-Portrait 单样本 3D 合成,再到 DiTalker 等音频驱动方案,构建了覆盖长视频、3D 肖像、实时驱动的完整技术矩阵。目前,团队已通过 GitHub 开源平台(https://github.com/VIVID-Avatar/)分享多项核心技术,并将最新研发的长时序音频驱动视频生成模型 InfinityHuman 部署至商业化即创平台,让前沿技术从实验室快速走向产业应用,为内容创作、教育培训、电商直播等领域提供低成本、高质量的数字人解决方案。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



文章原文

SIGCOMM 2025|重新定义个性化视频体验,快手与清华联合提出灵犀系统

2025-09-04 12:07:00

Image


近日,快手与清华大学孙立峰团队联合发表论文《Towards User-level QoE: Large-scale Practice in Personalized Optimization of Adaptive Video Streaming》,被计算机网络领域的国际顶尖学术会议 ACM SIGCOMM 2025 录用。该论文提出了一种创新的视频流优化系统 —— 灵犀系统,这是业界首个成功部署在大规模生产环境中、面向用户个性化体验的自适应视频流优化系统。



  • 论文:《Towards User-level QoE: Large-scale Practice in Personalized Optimization of Adaptive Video Streaming》

  • 论文地址:https://dl.acm.org/doi/10.1145/3718958.3750526


ACM SIGCOMM 是全球计算机网络领域历史最悠久、声望最高的旗舰学术会议之一。该会议对论文的质量和创新性有着极为严苛的标准,每年录用率极低。入选 SIGCOMM 的论文通常代表了网络研究的最新突破和未来方向,不仅要求研究工作具有坚实的理论基础和系统性的实践验证,更强调其对学术界和工业界的深远影响。历史上,从奠定互联网基石的 TCP/IP 协议到引领网络变革的软件定义网络(SDN)等诸多里程碑式的技术,都曾在 SIGCOMM 上首次亮相,深刻推动了全球网络技术的发展与演进。


视频流体验的个性化优化在学术界与工业界已进行诸多探索。然而,现有的方法在真实的大规模生产环境部署中,常常面临着一些根本性制约,如显式用户评分干扰用户体验、控制带宽进行播放干预导致体验受损、优化不连续以及难以规模化等。灵犀(LingXi)系统的设计初衷便是为了系统性地攻克这些难题,实现一个真正可部署、可持续、无打扰的个性化 QoE 优化框架。如下表 1 清晰地展示了灵犀系统与既往方法的核心区别:


表 1:灵犀系统与既有工作的核心区别


一、背景:从传统 QoS 到个性化 QoE 的转变


1. 系统级 QoS 优化的性能瓶颈


为了验证传统 QoS 优化方法的局限性,我们进行了一项为期数天的大规模线上 A/B 测试。实验组采用两种不同的 QoS 优化倾向:Alg2(基线)、Alg3(优先保障视频质量)、Alg1(优先降低卡顿)。如图 1 所示,尽管各算法在具体 QoS 指标(图 1-a;1-b)和线性 QoE 模型(图 1-c)上表现出差异,但在最核心的真实用户体验指标 —— 总观看时长(图 1-d)上,没有任何算法表现出持续且具有统计显著性的优势。这一结果证明,在现代视频流系统中,仅提升系统级的 QoS 指标已难以直接转化为真实用户体验的改善,传统的优化路径已趋于饱和。


(a) 目标 3 实现了最高的视频质量


(b) 目标 1 实现了最低的卡顿时间


(c) 目标 1 实现了最高的线性 QoE 分数


 (d) 没有算法可以取得明显的观看时长提升

图 1:A/B 测试中具有不同优化目标的算法获得的 QoS 和 QoE。


2. 识别关键 QoE 影响因子:聚焦 “卡顿”


为了寻找新的优化突破口,我们必须理解不同 QoS 指标对用户行为的真实影响。我们以 “用户退出率” 作为衡量 QoE 的细粒度指标,分析了上百万条真实播放轨迹。


(a) 视频质量


(b) 视频流畅性


(c) 整体卡顿时间


(d) 复合效应下的卡顿时间

图 2:QoS 指标对退出率的影响。


如图 2 所示,我们发现不同 QoS 指标对退出率的影响存在显著的量级差异:


  • 视频质量 (图 2-a):影响量级在 10⁻³。

  • 视频平滑度 (图 2-b)(码率切换):影响量级在 10⁻²。

  • 卡顿时长 (图 2-c):影响量级在 10⁻¹,是前两者的 10 倍乃至 100 倍。


结论 1:在所有 QoS 指标中,卡顿事件是影响用户体验的最主要负向因素。由于其影响的权重远超其他因素,且用户行为本身存在大量与 QoS 无关的噪声,因此,对影响较小的指标进行个性化建模极易被噪声淹没。一个有效的个性化 QoE 优化系统,必须将建模的重心放在用户对卡顿的响应上。


3. 验证个性化优化空间:用户感知的 “千人千面”


在确定卡顿为核心优化目标后,我们进一步探究了用户对卡顿的感知是否存在个体差异。


(a) 平均可容忍卡顿时间的累积分布


(b) 用户在遇到不同卡顿时间时的案例

图 3:卡顿的个性化感知。


如图 3 (a) 所示,用户平均可容忍卡顿时长的累积分布函数表明,用户间的卡顿容忍度差异巨大,并且具有一定稳定性。同时,图 3 (b) 展示了不同用户的真实反应曲线,清晰地呈现出三种模式:敏感型(卡顿轻微增加,退出率即飙升)、阈值敏感型和不敏感型。


结论 2:用户对卡顿的感知和容忍度存在显著的、稳定的个体差异性与时间动态性。这为实现用户级的个性化 QoE 优化提供了坚实的理论基础和巨大的优化空间。


二、算法设计:灵犀系统的三大核心组件


基于以上洞察,我们设计了灵犀系统。它并非一个全新的 ABR 算法,而是一个可以与任何现有 ABR 算法兼容的动态优化目标调整模块。灵犀系统的模块化架构使其能够便捷地集成到现有传输系统中,不对播放过程进行干预保证了生产环境安全,基于用户自然观看行为无需显式反馈避免打扰用户体验,同时通过实时追踪用户偏好变化实现持续的个性化优化。灵犀系统的结构设计如图 4 所示。


图 4:灵犀系统概览


其核心架构由三个协同工作的组件构成:


1. 在线贝叶斯优化 (Online Bayesian Optimization, OBO):参数的动态探索者


由于用户 QoE 与 ABR 参数之间的函数关系是未知的 “黑盒”,并且用户偏好会随时间动态变化。基于这一背景,我们需要一个样本效率高、能处理黑盒问题并适应动态环境的算法,即在线贝叶斯优化 (Online Bayesian Optimization, OBO)。灵犀系统会为每个用户独立运行 OBO 过程,利用历史 “参数 - 体验反馈” 数据点,构建高斯过程代理模型来拟合未知的目标函数。通过最大化采集函数(Acquisition Function),OBO 能够智能地在 “探索”(尝试不确定性高的参数)和 “利用”(选择当前最优的参数)之间进行权衡,为每个用户持续迭代寻找当前最优的 ABR 参数(如卡顿惩罚因子)。


2. 蒙特卡洛采样 (Monte Carlo Sampling):决策的未来模拟器


当 OBO 给出一个候选参数后,灵犀系统会启动蒙特卡洛模拟。它基于用户历史网络状况建立带宽模型,并从当前播放器状态开始,进行多次独立的虚拟播放。在每次模拟中,系统都使用该候选参数驱动 ABR 进行决策,并利用退出率预测器计算每个 segment 的退出概率。最终,通过汇总所有模拟轨迹的平均退出率,来评估该候选参数的长期影响,从而实现对短期和长期 QoE 的对齐。


3. 混合退出率预测器 (Hybrid Exit Rate Predictor):体验的精准量化器


图 5:混合退出率预测器神经网络架构


卡顿是影响 QoE 的主导因素,且其与其他 QoS 指标(如画质、观看时长)的交互效应复杂且非线性。因此,我们设计了一个混合模型来捕捉这种复杂性,既保证对核心痛点(卡顿)进行个性化精准建模,还有效避免了在低影响因素上的个性化建模所可能引入的噪声,从而实现了模型性能与鲁棒性的平衡。


  • 个性化神经网络:专门用于预测发生卡顿时用户的退出率。该网络(如图 5 所示)输入包括短期播放状态(码率、吞吐量、卡顿时长序列)和长期用户状态(历史卡顿间隔、历史卡顿 - 退出间隔),能够捕捉复杂的非线性关系和用户个体特征。

  • 整体统计模型:对于未发生卡顿的场景,由视频质量、平滑度等影响较小的因素主导,我们使用从全体用户日志中得到的统计模型进行预测。


三、实验效果:大规模 A/B 测试的有力证明


我们在快手平台上进行了为期 10 天的大规模 A/B 测试,将灵犀系统与生产环境中经过高度优化的基线 ABR 算法进行对比。


1. 整体 QoE 与 QoS 双重提升


(a) 总观看时长


(b) 码率


(c) 卡顿时间

图 6:灵犀系统的 A/B 实验。


实验结果显示,灵犀系统在总观看时长(QoE)、平均视频码率(QoS)、总卡顿时长(QoS)方向上均取得了全面且显著的性能提升。这证明灵犀系统在优化用户主观体验的同时,也协同改善了客观服务质量指标。


2. 低带宽长尾用户的显著收益


灵犀系统更大的价值体现在对播放体验更敏感的低带宽用户上。


(a) 在线参数


(b) 卡顿时间

图 7:不同带宽下的灵犀系统性能


如图 7 所示:


  • 参数自适应:在低带宽(<2000 kbps)区域,卡顿风险高,灵犀自动为用户分配了更保守的 ABR 参数;在高带宽区域,则采用更激进的参数以追求更高画质。

  • 卡顿优化效果:在带宽低于 2000 kbps 的场景下,灵犀系统使卡顿时长减少了约 15%,极大地改善了弱网用户的观看体验。


3. 个性化优化的直接验证


为了验证灵犀系统在 “因人而异” 优化方面的效果,我们分析了用户的卡顿敏感度与其对应参数之间的关系。


图 8:多日卡顿退出率与ABR参数关系分析。


如图 8 所示,用户的卡顿退出率(衡量其对卡顿的敏感度)与系统为其分配的 ABR 参数之间存在明显的负相关关系。即对卡顿越敏感(退出率越高)的用户,系统分配的参数越保守,反之亦然。


四、总结


灵犀(LingXi)系统的成功实践,标志着自适应视频流优化范式的一次关键演进,即从以往追求单一、静态的系统级优化目标,转向了为成千上万个动态、独立的个性化用户目标提供量身定制的策略,实现了真正的 “千人千面”。


该系统通过混合预测器、蒙特卡洛模拟与在线贝叶斯优化架构,精准量化并持续适应每个用户的独特体验偏好。在覆盖数千万用户的生产环境验证中,这一用户级优化范式不仅带来了整体 QoE 与 QoS 的双重提升,更关键的是,它为长期困扰行业的弱网用户带来了高达 15% 的卡顿减少,并直观地展现了为不同敏感度用户匹配差异化策略的能力。综上,灵犀系统为大规模、用户级的个性化 QoE 优化提供了突破当前行业瓶颈的关键路径。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

特斯拉下一代金色Optimus原型现身?一双「假手」成为最大槽点

2025-09-04 11:27:00

机器之心报道

机器之心编辑部


一大早,特斯拉的人形机器人 Optimus 整了个「大活」。


Salesforce CEO Marc Benioff 发布了一个短视频,视频中他与一个周身涂抹为金色的 Optimus 进行了一些对话,并盛赞其开启了物理智能体革命,并成为生产力变革者。价格也异常高昂,达到了 20 万到 50 万美元。他还 @了一下马斯克。



马斯克也现身评论区并留言互动。



有眼尖的网友表示,马斯克本人就潜伏在背景里面。



不过,这不是「金色擎天柱」的首次现身,去年就有博主爆料特斯拉打造了一个金色 Optimus,并且还有手部细节。



我们先来看这段视频:



人与机器人之间的对话内容是这样的:


  • Commander:嘿,Optimus,你在那儿做什么呢?


  • Optimus:没什么,正待命呢,随时可以帮忙。


  • Commander:嘿,Optimus,你知道我在哪里能买到可乐吗?


  • Optimus:抱歉,我没有实时信息,但如果你想去厨房看看有没有可乐,我可以带你过去。


  • Commander: 哦,好啊,那太棒了。是的,就这么办吧。我们走。


  • Optimus:好的,我们去厨房吧。


  • Commander:


  • 好的,好的,走吧。

  • 我觉得我们需要给它多一点空间。

  • 它现在对空间有点过于敏感了。

  • 这样我也能走得快很多。


该说不说,Optimus 走起路来虽然略显迟钝,但还是很稳的:



评论区很多人被 Optimus 如此高的价格震到了。根据此前的预测以及马斯克的说法,大规模量产之后,Optimus 的售价大概为 2 万到 3 万美元。



还有人惊叹 Optimus 的手看起来非常像真人,但是这个手看起来像金属一体的,似乎只是个摆设。



令人啼笑皆非的是,评论区有人表示这是为了防止手部设计被抄袭。



有人做了大胆猜测,「这很可能是 Optimus 2.5 或 V3,它比 Optimus 2 更轻盈。看起来去掉了一些多余的部件,并在设计上做了一些简化。显然,手部的设计目前还处于保密状态。」


特斯拉二代 Optimus 在 2023 年 12 月首次亮相,拥有灵活得像真人的双手以及可在一定幅度内转向的高自由度脖子。此后在灵活性、智能化、人机交互方面不断演进,展示过跳舞、唱歌、倒饮料、猜拳、比心、聊天等多样性动作,还可以识别障碍物、帮人拿物品,在自主导航、物体识别能力上也越来越强。



还有人吐槽 Optimus 看起来又吵又笨重还延迟。



当然也有熟悉的呼叫 grok 环节,不过 grok 否认了。



但有人认为这就是 Grok 语音集成,「使用的 Grok 声音过于做作,拖沓且延迟严重。走路声音很大,听起来就像一桶螺栓在晃动。」



另一边,Figure 也放出了机器人把碗整齐地装进洗碗机的视频。视频里,机器人在厨房精准地把碗、盘子、杯子一件件放进洗碗机,动作流畅精准。



Figure 表示,他们致力于「把机器人带进千家万户」,并且强调,无论是之前的叠衣服、整理包裹,还是现在将碗碟装入洗碗机,背后都是同一个 Helix 模型(Figure 的 VLA 模型)。其强大的泛化能力并非源于新算法或特殊改造,而仅仅是新数据训练的结果。



有人吐槽称,「杯子和碗放的有些随意,尤其是碗没有叠放起来。」


两家明星机器人同时放出视频,相比之下,Figure 展示了一个此前从未有机器人完成的动作,但没有演示遵循人类指令或沟通互动的能力;而特斯拉 Optimus 更像是走廊中一次偶遇拍摄,表现不尽如人意。



也有人表示,Figure 展示的是 Optimus 早就做过的类似的动作。



「一边是精心准备的 demo,一边是临时遇到的场景。」两段演示显然无法说明一切,但是否意味着特斯拉 Optimus 遇到了一些麻烦呢?


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文

让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通

2025-09-04 11:27:00


想象一下这样的早晨:


你还在被窝里,你的机器人管家已经在厨房里忙碌了起来:它熟练地导航到燕麦罐、可可球、牛奶,逐一抓取并添加到碗中,最后,它将一碗搭配好的营养早餐送到你的面前,整个过程行云流水,无需任何人工干预


BSC-Nav 在真实环境中执行「制作早餐」的移动操作任务


这并非科幻片中的桥段,而是来自清华大学与北京航空航天大学团队的最新成果——BSC-Nav 的真实演示。通过模仿生物大脑构建、维护空间记忆的原理,研究团队让智能体拥有了前所未有的「空间感」。



  • 论文标题:From reactive to cognitive: brain-inspired spatial intelligence for embodied agents

  • arxiv 地址:https://arxiv.org/abs/2508.17198

  • 项目地址:https://github.com/Heathcliff-saku/BSC-Nav


这项工作发布后,立刻引起了业界的关注。有同行评价道:「BSC-Nav 证明了它学习和适应不同环境的强大能力,这可能引领我们迈向更智能的导航机器人时代。



BSC-Nav(Brain-inspired Spatial Cognition for Navigation)是首个受生物大脑空间认知机制启发的统一框架。它不仅赋予了智能体卓越的通用导航能力,还使其能够完成主动具身问答、复杂移动操作等更高阶的空间感知与交互任务。


当前,以多模态大模型(MLLMs)为代表的基座模型几乎无所不能,我们距离通用人工智能(AGI)还有多远?一个公认的瓶颈在于:如何让 AI 走出虚拟世界,在复杂的物理环境中理解、记忆并与世界高效交互——即实现真正的具身智能。


然而,目前大多数由大模型驱动的具身智能体,更像一条「记忆只有七秒的鱼」。它们主要依赖即时观察做出反应,缺乏对环境长期、结构化的记忆。这导致它们在真实、动态的环境中泛化能力差。


为了攻克这一核心难题,BSC-Nav 团队从认知神经科学中汲取灵感,为具身智能体量身打造了一个结构化的空间记忆系统,并与最前沿的基座模型深度融合,让 AI 从此告别「路痴」,拥有了强大的空间认知能力。


具身智能体的记忆碎片化挑战


现有的具身智能导航方法为何难以形成有效的空间记忆?主要存在两类困境:


  • 端到端策略的「记忆固化」基于强化学习或模仿学习训练的导航策略,其模型参数在训练完成后便固定不变。这使得它们高度依赖训练数据的分布,一旦进入未见的真实环境,便如同刻舟求剑,难以泛化到复杂和动态的环境,更无法在新的探索中积累和更新空间记忆。


  • 模块化策略的「记忆短视」另一类主流的导航方法采用层次化策略,通常由多模态大模型进行上层规划(如规划导航子目标),再由启发式算法执行动作规划。然而,这些方法的空间记忆要么是「即时性」的(仅依赖当前观测),要么是「浅表性」的(如静态的语义地图或抽象拓扑图),不仅表征能力有限,更缺乏有效的更新机制,无法应对真实世界的复杂场景和动态变化。


究其根本,这些挑战都指向同一个核心问题:如何为智能体植入一个能够持续构建、动态更新的强大空间记忆系统。这正是 BSC-Nav 驱动多模态大模型在具身环境中,完成从「被动反应」到「主动认知」这一关键跃迁的基石。


解锁 BSC-Nav 的技术核心:三大「记忆组件」复刻人类空间认知


我们之所以能在复杂的环境中穿梭自如,依靠的并非是超强的「大脑算力」,而在于我们与生俱来的一套高效且灵活的空间认知系统。神经科学研究早已表明,生物大脑主要依赖三种相互关联的空间知识形成稳健的空间认知:


  • 地标知识(Landmarks)记住环境中显著的物体,比如「街角的花店」、「桌面上的星巴克咖啡杯」。


  • 路线知识(Route knowledge)记住连接地标的移动轨迹,比如「从花店直走,到红绿灯右转」。


  • 勘测知识(Survey knowledge)在大脑中形成一张类似地图的全局认知,使我们能够规划捷径或绕行。


BSC-Nav 框架巧妙地将这一生物学原理进行了计算化实现,其核心是三个协同工作的模块:


图:BSC-Nav 从生物空间认知汲取灵感(a),构建结构化空间记忆和检索机制(b),并与多模态大模型结合进行导航规划)


  • 地标记忆模块(Landmark Memory Module)该模块采用开放词汇检测器(YOLO-World)识别环境中的显著物体(如沙发、桌子),并记录物体的类别标签、置信度、投影后的空间位置,形成稀疏而高效的「地标」记忆。同时,在每次记录后都会进行坐标重合检测与地标合并,确保每个记录的物体对应环境中的唯一实例。


  • 认知地图模块(Cognitive Map Module)这个模块更进一步,通过 DINO-V2 实时编码观测图像的 patch 特征,并投影至统一的体素化网格空间中,每个网格都具有特征缓存池以容纳来自不同视角、不同时期观测的视觉特征。它将智能体的路径观测(路线知识)转化为全局一致的「认知地图」(勘测知识)。该模块采取了「意外驱动」(surprise-driven)的策略。这意味着只有当观察到的新信息与现有记忆产生足够大的「意外」或偏差时,系统才会更新认知地图。这种机制极大地提升了记忆效率,避免了对重复信息的冗余存储。


  • 工作记忆模块(Working Memory Module)这一模块实现了人脑视觉-空间工作记忆的功能,用于检索、重构与具体任务相关的空间记忆。当接到任务时(比如「去冰箱拿瓶牛奶」),工作记忆模块会根据指令的复杂程度,决定是从「地标记忆」中快速检索,还是在「认知地图」上进行更复杂的规划。模块中设计了「联想增强」(association-enhanced)的检索策略。对于模糊指令,比如「去那个放着蓝色古典茶壶的桌子」,即使从未精确记录过「蓝色古典茶壶」,系统也能通过多模态大模型丰富指令细节,并依赖图像生成「脑补」出目标的视觉特征,再将其与认知地图中的视觉信息进行匹配,从而实现精准定位。这赋予了智能体前所未有的推理和与泛化能力。


图:工作记忆对不同模态、不同复杂度的目标进行空间位置进行精确定位


碾压式性能提升:多项导航任务刷新纪录


为了全面验证 BSC-Nav 的能力,研究团队在 Habitat 物理仿真环境中,针对四大主流导航任务(目标导航、开放词汇导航、文本实例导航、图像实例导航)进行了覆盖 62 个场景、多达 8195 个导航片段的大规模实验。


结果显示,BSC-Nav 的性能实现了「碾压式」的超越,在各项任务中均超越了以往方法。


图:BSC-Nav 在物体导航、开放词汇导航、文本实例导航和图像实例导航四大基准均实现新的 SOTA


如上图所示,无论是在导航成功率(SR)还是路径效率(SPL)上,BSC-Nav 均显著优于当前领域的顶尖方法。它不仅「找得到」,还「走得快」。例如,在物体导航(OGN)任务中,BSC-Nav 在 HM3D 数据集上的成功率高达 78.5%,比此前的 SOTA 方法 UniGoal 高出整整 24.0%。在更具挑战性的文本实例导航(TIN)任务中,BSC-Nav 更是将成功率提升了近一倍,展现了其强大的多模态理解与定位能力。


更进一步:轻松拿捏复杂导航指令与烧脑提问


强大的空间记忆与多模态大模型的深度融合,赋予了智能体一个能够推理并执行复杂任务的「超级大脑」。它不再只是被动执行单点指令,而是能够理解并拆解长序列任务,甚至能主动探索环境,回答具有空间逻辑的「烧脑」难题。


面对「穿过玻璃门,从沙发和咖啡桌中间走过去,走到冰箱那,然后右转停在楼梯口」这样的长指令,多模态大模型能够智能地将其分解为一系列清晰的子目标(路标点),随后 BSC-Nav 便能像执行多站点任务一样,精准地依次抵达。在权威的长指令导航基准 VLN-CE R2R 中,BSC-Nav 的零样本(zero-shot)表现已非常接近需要大量监督数据训练的顶尖模型,且导航效率(SPL 53.1%)远超所有对手!


图:BSC-Nav 针对复杂指令下的视觉语言导航任务表现出色


更令人印象深刻的是,当被问及「楼上那四幅画下面是什么?」这类需要主动探索和空间推理的问题时,BSC-Nav 能够准确解析问题中的关键实体「四幅画」,主动导航至二楼相应位置,通过仔细观察找到答案,并给出「四幅画下面是一个散热器」的精准回答。在主动具身问答(A-EQA)基准上,BSC-Nav 的表现显著超越了所有基线方法。


图:BSC-Nav 在主动视觉问答基准上的表现超越现有基线方法


从理解长指令到主动回答空间问题,BSC-Nav 展现了从「感知」到「认知」的质的飞跃。它不仅知道「去哪里」,更理解「为什么去」以及「去了之后做什么」,这正是通往通用人工智能所需要的、真正的认知智能。


走向现实:真机实测,导航、移动操作信手拈来!


仿真中的优异表现,能否迁移到充满不确定性的真实世界?这是所有具身智能研究者最为关心的问题,BSC-Nav 给出了肯定的答案!


为了研究在真实环境下的性能,研究团队和松灵机器人团队专门打造了一台集感知、导航和操作于一体的移动机器人平台,并在一个面积约 200 平方米的双层真实室内环境中,对 BSC-Nav 进行了严苛的实地测试。



实验结果再次证明了 BSC-Nav 的强大泛化性。无论是根据简单的物体名称、复杂的文本描述,还是模糊的参考图片进行导航,机器人都能精准、高效地到达目的地。在 15 个不同目标的 75 次随机起点测试中,BSC-Nav 实现了高达 80% 以上的导航成功率(任务成功定义为最终停止位置距离目标小于 1 米)。



此外,得益于其强大的空间认知能力,BSC-Nav 能够无缝衔接复杂的移动操作任务。在演示中,机器人不仅能完成清理桌面、搬运饼干盒等任务,还能执行开篇提到的、包含三次导航和三次操作的「制作早餐」任务。



One More Thing


这项研究最大的启示是什么?


具身智能的进化,或许并不完全依赖于算力和参数的无限堆砌。


生物亿万年的演化已经向我们展示了足够强大和高效的智能范式。正如团队在论文中所写道的:


「从被动响应到主动认知,BSC-Nav 证明了一件事:让机器理解空间,记忆是关键(From reactive behavior to cognitive spatial intelligence, memory is the key)。」


下一步?团队计划将这套类脑记忆框架扩展到更动态的环境和更复杂的认知任务中。


也许在不久的将来,当机器人管家为你做早餐时,它不仅能找到食材,还能记住你昨天说过的「明天我想试试溏心蛋」。


毕竟,是记忆,让智能成为真正的智能。


团队介绍



该工作有两位共同一作,其中一位是来自于北京航空航天大学人工智能研究院的三年级直博生阮受炜,他同时是清华大学 TSAIL 课题组访问博士生,师从韦星星教授、苏航教授。研究方向为深度学习鲁棒性、多模态大模型与空间智能。此前在 IEEE TPAMI、ICCV、ECCV 发表论文 10 余篇,曾获国家奖学金、西电特等奖学金荣誉。



另一位是来自于清华大学心理与认知科学系的助理教授王立元,他先前是清华大学 TSAIL 课题组的博士生和博士后。研究兴趣包括持续学习、终身学习和类脑智能,研究成果以第一/通讯作者发表在 Nature Machine Intelligence、IEEE TPAMI、NeurIPS、ICLR、CVPR、ICCV 等期刊和会议,曾获 CAAI 清源学者、WAIC 云帆奖、WAIC 青年优秀论文奖等荣誉。


团队成员来自于北京航空航天大学和清华大学:阮受炜,王立元(指导老师),康彩新,朱淇惠,刘松铭,韦星星(指导老师,通讯作者),苏航(指导老师,通讯作者)。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章原文