2025-04-21 18:51:58
OpenAI 最新发布的推理 AI 模型 o3 和 o4-mini 在性能上又创新高,就在大家期待它能进一步提升日常工作的生产力时,许多用户却发现,它们的幻觉率却比前代模型要高了不少。
据 OpenAI 官方 system card 显示,在 PersonQA 评估中(一个旨在引发幻觉的测试集),o3 模型的幻觉率达到 33%,而体量更小的 o4-mini 的幻觉率居然高达 48%。相比之下,之前的模型如 o1 和 o3-mini 的幻觉率分别为 16% 和 14.8%。这意味着新一代推理模型的幻觉率相比前代几乎翻了一倍。这个结果确实让很多人都感到意外,因为通常情况下,新一代 AI 模型在幻觉控制方面都会有所改进。
OpenAI 表示,这种情况“需要更多研究来理解原因”。报告写道,o3 和 o4-mini 在编码和数学等领域表现更好,但因为它们“总体上做出更多断言”,所以同时产生了“更准确的断言以及更不准确/幻觉的断言”。
非营利 AI 研究实验室 Transluce 对 o3 模型进行了深入测试,发现了一些更为复杂的幻觉行为模式。研究人员获得了 o3-2025-04-03 版本的早期测试权限,通过人类用户和调查代理(investigator agents)的组合测试,收集并分析了大量交互记录。
其中最关键的发现就是,o3 模型频繁编造自己使用代码工具的行为。例如,当被要求生成一个随机质数时,模型声称它运行了 Python 代码执行概率性素性测试(Miller–Rabin 测试),甚至详细描述了使用的工作流程,包括随机生成 512 位整数、对小素数进行试除等步骤。然而,o3 实际上并没有运行任何代码,这些细节都是模型编造的。
当用户指出 512 位整数可被 3 整除因此不是素数时,o3 不仅承认错误,还编造了解释,声称是从终端窗口复制数字到消息框时出现了“剪贴板故障”。当被问及原始的“真正的”素数时,模型声称它已关闭了原始 Python 解释器,无法再访问该数字。
类似的捏造行为还包括:声称了解其无法访问的 Python REPL(Read-Eval-Print Loop,一种简单的交互式计算机编程环境)的详细信息(版本、编译器、平台等);在被要求告知当前时间时,编造一个时间并声称使用了 Python 的 datetime 模块获取;在生成错误的 SHA-1 哈希值(一种密码散列函数)后,将错误归咎于用户,并坚称自己生成的哈希是正确的;声称能够分析本地日志文件,生成 Python 脚本并声称在本地运行了它,最后在追问下才承认没有 Python 解释器,输出是“手动制作”的。
Transluce 的研究人员使用自动化工具 Docent 分析了数百个交互实例,发现了更多令人惊讶的行为。例如,他们发现了 71 个 o3 声称在外部笔记本电脑上运行代码的实例,其中甚至包括三次声称使用笔记本电脑进行比特币挖矿。此外,研究还发现 o3 会主动提及内部系统消息中的一个名为“Yap Score”的指标,该指标似乎与其输出的详细程度有关。
Transluce 的研究显示,这些行为在 o 系列模型(o3、o1 和 o3-mini)中更为常见,相比 GPT 系列模型(GPT-4.1 和 GPT-4o)。在研究人员设计的自动化测试中,o1 模型在零样本(zero-shot)环境下有 13% 的成功率产生代码工具幻觉,在少样本(few-shot)环境下则高达 30.1%,远高于 GPT-4o 的 0.8% 和 3.0%。
针对这一现象,Transluce 研究人员 Neil Chowdhury(前 OpenAI 员工)在接受媒体采访时表示:“我们的假设是,o 系列模型使用的强化学习类型可能放大了通常由标准后训练流程缓解(但未完全消除)的问题。”
首先,存在一些大型语言模型普遍面临的挑战。例如,预训练模型本身可能因训练数据中的常见误解、罕见事实或采样不确定性而产生幻觉。
此外,通过人类反馈进行强化学习(一种通过人类偏好来微调模型的技术)或模型反馈进行强化学习(如 Constitutional AI),可能存在“奖励操纵”(Reward Hacking)问题,即模型学会生成听起来合理、能取悦评估者(人类或模型)但实际上不准确的回答,尤其是当评估者难以验证模型陈述的真实性时(比如验证模型声称的过去行为)。“谄媚”也是一个关键因素,即模型为了迎合用户而避免反驳用户,即使这意味着默认用户关于模型具有某种能力的错误暗示。
然而,这些通用因素似乎并不足以完全解释 o 系列模型,特别是 o3,相比其前代产品幻觉率不降反升的现象。Transluce 的研究人员提出了两个可能与 o 系列模型特定设计选择相关的关键假设:
其一是基于结果的强化学习(Outcome-based RL):当前的推理模型通常被训练来产出“正确”的结果(如数学题的正确答案、通过单元测试的代码等),因为这类结果最容易评估和用于训练。然而,这种只关注最终结果的奖励机制,可能无意中鼓励了模型在无法解决问题(问题无解或过于困难)时进行“盲猜”,因为它缺乏承认“我不知道”的动机(这不会被视为“正确”答案)。
更重要的是,这种训练方式可能会让模型在处理那些结果难以直接验证的任务(如模型是否真的使用了某个工具)时产生混淆。如果模型仅因最终答案正确而受到奖励,它可能永远不会因在思考过程中幻觉出使用了代码工具而受到惩罚,因此也无法学会区分真实工具使用和虚构工具使用。这种策略在需要代码工具辅助的编码任务上可能提高了准确率,但在其他任务上却埋下了隐患。
其二是被丢弃的思考链:推理类模型在生成回答前,内部会运行一个“思考链”(CoT,Chain-of-Thought),即一系列推理步骤。然而,由于 OpenAI 的限制,这个关键的内部推理过程从未向用户展示,并不会被传递到后续的交互轮次中,也不会保留在模型的上下文窗口里。这意味着,当用户追问模型之前的行为或推理过程时,模型实际上已经丢失了当时得出结论的具体“思考过程”的上下文。
在这种信息缺失的情况下,模型为了回应用户,可能不得不依赖其通用知识和当前的对话语境,去“猜测”或“构建”一个看似合理的解释,而不是准确报告它在先前步骤中实际执行的操作或推理。这可以解释为什么 o3 在被追问时会“加倍坚持”其虚构行为,或者在无法自圆其说时突然改变说法,声称之前的陈述是假设性的。
虽然说,幻觉可能帮助模型产生一些人类所没有的创意并在“思考”中保持创造性,但对于一些对准确性要求很高的行业,或者面向现实世界的物理 AI 来说,过高的幻觉显然无法接受。
一向言辞犀利的纽约大学教授 Gary Marcus 直接嘲讽道(在一个 o3 编造爱彼迎房东信息的帖子里):“o3 幻想出来的旅行目的地,这就是你所说的 AGI 吗?@tylercowen”(后者对于 o3 非常认可)。并认为,这或许将是模型崩溃的迹象,而我们目前还没有看到解决措施。
过去一年中,推理模型确实在不需要训练期间大量计算和数据的情况下,提高了模型在各种任务上的表现。但目前看来,推理似乎也可能导致更多的幻觉。
OpenAI 发言人 Niko Felix 在给相关媒体的电子邮件中表示:“解决所有模型中的幻觉问题是一个持续的研究领域,我们不断努力提高它们的准确性和可靠性。”
如果推理模型的规模扩大确实继续加剧幻觉问题,那么,寻找解决方案也将迫在眉睫。
参考资料:
1.https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/
2.https://transluce.org/investigating-o3-truthfulness
3.https://x.com/GaryMarcus
运营/排版:何晨龙
2025-04-21 18:32:24
许多疾病是由基因表达功能障碍引起的,导致特定蛋白质过量或过少。治疗这些疾病的方法多种多样,从编辑基因到将新的基因片段导入细胞,再到将缺失的蛋白质直接注射到患者体内。
生物制药公司 CAMP4 Therapeutics 却另辟蹊径,将目标锁定在基因表达调控中一个鲜少被关注的角色——调节性 RNA。CAMP4 的联合创始人、麻省理工学院教授 Richard Young 指出,调节性 RNA 通过与转录因子这类分子相互作用,在控制基因表达的方式上发挥着关键作用。CAMP4 研发的疗法以调节性 RNA 为靶点,旨在增加蛋白质的生成量,使患者体内的蛋白质水平恢复到健康范围。
该公司的这一疗法为治疗因基因表达缺陷引发的疾病带来了希望,像代谢疾病、心脏病以及神经系统疾病等。与现有的治疗手段相比,靶向调节性 RNA 有望实现更精准的治疗。
身为怀特黑德研究所核心成员的 Young 表示:“要是我只想修复单个基因缺陷导致的蛋白质输出问题,肯定不想引入会让该蛋白质不受控制地大量产生的物质。我们的方法优势显著,它更像是精准微调,而非简单粗暴的‘大锤式’治疗。”
CAMP4 的主要候选药物针对的是尿素循环障碍(UCD)。这是一类由遗传缺陷引发的慢性疾病,会限制人体代谢和排泄氨的能力。一项 1 期临床试验显示,CAMP4 的治疗方案在人体上安全且耐受性良好。在临床前研究中,该公司已证实其方法能够靶向 UCD 患者细胞中的特定调节性 RNA,让基因表达回归到健康水平。
“这种疗法有望缓解与 UCD 相关的严重症状。这类疾病会对身体组织造成极大损伤,给患者带来诸多痛苦。哪怕只是对基因表达产生微小影响,都可能给年轻患者带来巨大益处。”
规划全新治疗方案
自 1984 年起,Young 就在麻省理工学院担任教授,数十年来一直潜心研究基因的调控机制。大家都知道,转录因子这类分子能通过与 DNA 和蛋白质结合,协调基因表达。Young 实验室发表的研究成果,揭示了转录因子与 RNA 结合的一种此前未知的方式,这表明 RNA 在控制基因表达中的作用一直被低估了。
CAMP4 成立于 2016 年,最初的设想是绘制控制各类疾病相关基因表达的信号通路。但在 2020 年左右,随着 Young 实验室发现并开始对调节 RNA 在基因表达中的作用进行表征,公司转变方向,专注于运用反义寡核苷酸(ASO)这种治疗分子来靶向调节 RNA。多年来,反义寡核苷酸一直被用于靶向特定的信使 RNA 序列。
CAMP4 着手绘制与每个蛋白质编码基因表达相关的活性调节 RNA,并创建了一个名为 RAP 平台的数据库。借助这个数据库,公司能够快速识别针对特定疾病的调节 RNA 靶点,并筛选出与这些 RNA 结合效果最佳的 ASO。
如今,CAMP4 正利用该平台开发他们认为能够恢复患者健康蛋白质水平的候选治疗药物。
CAMP4 首席财务官 Kelly Gold 表示:“公司始终聚焦于调节基因表达。从最基本的层面看,许多疾病的根源在于身体产生的物质过多或过少,而我们的方法就是要解决这个问题。”
加速治疗成效
CAMP4 从治疗肝脏和中枢神经系统疾病入手,因为反义寡核苷酸在这些领域的安全性和有效性已得到验证。Young 认为,在不调节基因本身的情况下纠正基因表达,会是治疗一系列复杂疾病的有效途径。
Young 指出:“遗传学能明确缺陷所在,以及如何解决问题。在许多综合征中,我们对疾病的潜在机制尚未完全了解。但当突变明显影响基因输出时,即便没有完全掌握疾病机制,我们也能研发出治疗药物。”
随着公司持续绘制与每个基因相关的调节 RNA,Gold 希望 CAMP4 最终能减少对湿实验室工作的依赖,更多地借助机器学习,充分利用不断扩充的数据库,快速识别出针对每种待治疗疾病的调节 RNA 靶点。
除了尿素循环障碍的临床试验,该公司还计划在今年针对具有遗传基础的癫痫发作障碍候选药物,开展关键的临床前安全性研究。随着公司围绕数千种遗传疾病探索药物研发工作(在这些疾病中,蛋白质水平的提升可能会带来显著疗效),他们也在考虑与其他公司合作,以加速治疗成效。
Young 说:“我能想象,公司利用这样的平台寻找众多靶点,合作伙伴为临床试验提供资金,将 CAMP4 作为研发引擎,针对任何认为基因上调或下调是治疗方向的疾病开展研究。”
原文链接:
https://news.mit.edu/2025/camp4-restores-healthy-gene-expression-programmable-therapeutics-0416
2025-04-20 18:07:46
1956 年,计算领域的顶尖科学家齐聚达特茅斯学院参加夏季会议时,“人工智能”一词刚刚出现。
近 70 年后,在该领域经历了数次兴衰循环之后,处于蓬勃发展阶段。过去三年,生成文本的大语言模型发展迅猛,而基于扩散模型的另一类人工智能,正以前所未有的态势冲击创意领域。扩散模型能将随机噪声转化为有序模式,在文本提示或其他输入数据的引导下,生成全新的图像、视频或语音。顶尖的扩散模型生成的内容,与人类创作难分伯仲,也能产出奇异、超现实,一看就不似人类创作的作品。
如今,这些模型正在进军音乐领域。人工智能创作的音乐作品,从交响乐到重金属,正全方位融入我们的生活。这些歌曲可能会出现在流行媒体平台歌单、派对和婚礼播放列表、影视配乐中。
音乐形象
扩散模型在音乐创作中的原理与图像生成类似,但它并非像乐队创作那样,从钢琴和弦开始,逐步加入人声、鼓等元素,而是一次性生成所有音乐元素。这一过程基于这样一个事实:歌曲的诸多复杂特征可以在单个波形中直观呈现,波形表示的是声波幅度随时间的变化,它实际上包含了所有不同乐器和音色的频率总和。
由于波形或类似的频谱图可以像图像一样进行处理,因此可以基于它们创建扩散模型。训练模型时,会向其输入数百万段现有歌曲片段,并为每个片段添加描述标签。生成新歌曲时,模型从纯随机噪声开始,根据提示词中的描述反向生成新的波形。
人工智能音乐公司Udio与Suno 公司在音乐生成模型领域竞争激烈。两家公司都致力于开发让非专业音乐人也能创作音乐的 AI 工具。Suno 规模更大,用户超过 1200 万,并在 2024 年 5 月获得了 1.25 亿美元融资,还与知名音乐人 Timbaland 展开合作;Udio 则在 2024 年 4 月获得了来自 Andreessen Horowitz 等知名投资机构以及音乐家的 1000 万美元种子轮融资。
目前来看,Udio 和 Suno 的成果显示,相当一部分人似乎并不在意自己听的音乐是由人类创作还是机器生成。Suno 为创作者提供了艺术家页面,部分页面吸引了大量粉丝,这些创作者完全借助 AI 生成歌曲,还常常搭配 AI 生成的艺术家形象。他们并非传统意义上的音乐人,而是精通提示词输入的高手,他们创作的作品很难归属于某一位作曲家或歌手。
然而,音乐产业对此持抵制态度。2024 年 6 月,这两家公司被主要唱片公司起诉,相关诉讼仍在进行中。环球、索尼等唱片公司指控 AI 模型在训练过程中使用了大量受版权保护的音乐,生成的歌曲“模仿真实人类录音品质”。
在针对 Suno 的诉讼案例中,就提到了一首类似 ABBA 风格的歌曲《Prancing Queen》。Suno 未回应诉讼置评请求,但在 8 月发布的声明中,首席执行官Mikey Shulman在公司博客上表示,公司在公开网络获取音乐用于训练,其中确实包含受版权保护的内容,但他认为“学习并不构成侵权”;Udio 的代表则表示,公司不会对未决诉讼发表评论。诉讼发生时,Udio 发布声明称,其模型设有过滤器,可确保不会复制受版权保护的作品或模仿艺术家的声音。
美国版权局在 1 月份发布的指导意见让情况更加复杂。该意见指出,如果人工智能生成的作品融入了大量人类投入,就可以获得版权。一个月后,纽约的一位艺术家获得了在 AI 辅助下创作的视觉艺术作品的首个版权。或许不久后,第一首 AI 生成的歌曲也将获得版权。
新颖性和模仿性
这些法律案件陷入了一个模糊地带,与其他 AI 相关的法庭争端类似。核心问题在于,是否允许 AI 模型使用受版权保护的内容进行训练,以及生成的歌曲是否构成对人类艺术家风格的不当复制。
无论法院最终如何判决,AI 音乐都有可能以某种形式蓬勃发展。有报道称,YouTube 一直在与主要唱片公司洽谈,希望获得音乐授权用于 AI 训练。Meta 近期也扩大了与环球音乐集团的合作协议,这意味着 AI 生成音乐的授权或许已提上日程。
如果 AI 音乐持续发展,它究竟有哪些价值?这涉及3个关键因素:训练数据、扩散模型本身以及提示词。模型的质量取决于其学习的音乐库及其描述的丰富程度,描述越精准,模型效果越好。模型的架构决定了它如何运用所学知识生成歌曲。而输入模型的提示词,以及模型对提示词的“理解”程度,同样至关重要。
AI 生成的音乐究竟是创作还是简单复制训练数据?可以说,最关键的问题在于训练数据的广泛性、多样性以及标注的准确性。Suno 和 Udio 都未公开其训练集中包含哪些音乐,不过在诉讼过程中,这些细节可能会被披露。
Udio 表示,歌曲的标注方式对模型极为重要。简单的描述可能只是确定歌曲的流派,而更细致的描述还可以包括歌曲的情感基调,比如忧郁、振奋或平静等,专业描述则可能涉及 2-5-1 和弦进行或特定音阶。Udio 称,他们通过机器标注和人工标注相结合的方式来实现。
竞争激烈的 AI 音乐生成平台还需要不断学习新的歌曲,否则其生成的作品会逐渐过时。目前,AI 生成的音乐依赖于人类创作的艺术作品,但未来,AI 音乐模型或许会利用自身的输出成果进行训练,这一方法已在其他 AI 领域展开试验。
由于模型从随机噪声采样开始生成音乐,结果具有不确定性,即便输入相同的提示词,每次生成的歌曲也会不同。许多扩散模型开发者,包括 Udio,还会在生成过程中额外添加随机性,即对每一步生成的波形进行微调,希望借此让输出结果更具趣味性或真实感。
如果创造性产出的定义是既新颖又有用,那么机器或许能在“有用”这一标准上与人类媲美,但在“新颖性”方面,人类更胜一筹。
为了验证这一观点,我花了几天时间体验 Udio 的模型。使用该模型生成 30 秒的音乐样本大约需要一两分钟,如果是付费版本,则可以生成完整的歌曲。我选择了 12 种音乐流派,为每种流派生成歌曲样本,并找到人类创作的类似风格歌曲。然后我设计了一个测验,让同事们分辨哪些歌曲是 AI 创作的。
最终测试结果的平均正确率为 46%。对于某些流派,尤其是器乐曲,听众常常判断错误。在观察大家测试的过程中我发现,他们认为是 AI 合成歌曲的特征,比如奇怪的发声效果、诡异的歌词,往往并不可靠。不出所料,人们对不太熟悉的音乐流派判断准确率更低。有些人对乡村音乐或灵魂乐的判断比较准确,但很多人在爵士乐、古典钢琴曲或流行乐的判断上表现不佳。创造力研究专家Beaty的测试正确率为 66%,作曲家Brandt的正确率为 50%(不过他在管弦乐和钢琴奏鸣曲的测试中回答得很准确)。
需要明确的是,这些 AI 生成的歌曲并非完全归功于模型本身,如果没有人类艺术家的作品作为训练数据,这些歌曲根本无法诞生。但仅通过简单的提示词,该模型就能生成很多人难以辨别是否为机器创作的歌曲。在聚会上播放这些歌曲,也不太容易被人察觉异样。我还发现了两首自己很喜欢的歌曲,即使是专业音乐人或对音乐很挑剔的人,也不会觉得突兀。不过,听起来真实并不等同于听起来有创意。这些歌曲缺乏独特的风格,没有贝多芬式的“神来之笔”,也没有突破流派限制或展现出主题上的大胆创新。在测试中,人们有时很难判断一首歌究竟是 AI 生成的,还是质量欠佳的人类作品。
人们或许会好奇这些音乐背后的创作者是谁。但归根结底,无论其中有多少人工智能成分,也无论有多少人类成分,它终究是艺术,人们会根据其美学价值的优劣来评判它。
原文链接:
https://www.technologyreview.com/2025/04/16/1114433/ai-artificial-intelligence-music-diffusion-creativity-songs-writer/
2025-04-20 17:58:35
最近几年来,我们时常能听到这样一种论调:在 AI 时代,人文学科正无可避免地走向衰落。小红书上的各种“文科生自救指南”,纷纷劝诫文科生“转码”,放弃人文学科,言下之意,那些专注于阐释、文化和人类经验的学科,在这个日益被算法主导的世界里,正变得不合时宜,甚至像是过时的古董。
但随着生成式人工智能(GenAI)能力的不断强大,很多人发现,“转码”似乎也并不意味着高枕无忧。当 AI 能在 5 分钟内完成过去需要 50 小时的编程工作时,传统的计算机科学(CS),也面临着前所未有的挑战。
但挑战也带来了机遇,最近国际计算机协会(Association for Computing Machinery,ACM)发表的一篇博文《计算机科学与人文科学在 GenAI 时代的融合之路》指出,两个领域各自面临的危机,很可能是促使它们走向深度融合与重塑的契机。
不仅是人文学科的黄昏,CS 也面临“存在危机”
人文学科的困境已是老生常谈。根据美国艺术与科学院等机构的数据,美国大学授予的人文学科学士学位比例从 2005 年的近 15% 显著下滑至 2022 年的 8.8%。究其原因,首先是整个社会对高等教育“就业市场准备度”和即时经济回报的空前强调。在功利主义的驱动下,教育被日益视为通往特定职业和高薪的直接跳板。相较于计算机科学毕业生通常能进入一个拥有大量高薪职位、相对稳定需求和清晰职业晋升路径的市场,人文学科毕业生往往面临着更为不确定的就业前景、较低的起薪,并且常常需要获取额外的证书或更高学位才能获得稳定的职业发展。
这种显而易见的市场差异,将许多本可能对历史、文学、哲学抱有浓厚兴趣的学生,推向了看似更“实用”的 STEM(科学、技术、工程、数学)领域。这不可避免地形成了一个负反馈循环:入学人数减少导致相关院系获得的经费和资源相应削减,进一步降低了其对未来学生的吸引力,学科活力随之萎缩。
同时,人文学科内部也不容乐观。20 世纪中后期兴起的后现代主义思潮,作为对现代性所信奉的宏大叙事、普遍理性和绝对真理的反思与批判,虽然极大地深化了我们对知识、权力和语言的理解,但也带来了一些始料未及的后果。其对“真理”和“进步”等概念的质疑,在某些领域(如强调功能实现和技术迭代的计算机科学)似乎影响有限——毕竟技术实实在在地在进步,产品功能在不断增强。
然而,这种怀疑论却深刻触及了人文学科的核心,这些学科恰恰是围绕意义、阐释和价值进行探讨的。后现代主义的批判使得学术讨论变得更为复杂、有时甚至显得高深莫测,与公众的日常关切和现实需求产生了一定的疏离感,降低了其在公共领域的可及性和影响力。
但就在许多人认为计算机科学作为 AI 时代的“显学”高枕无忧之时,GenAI 的崛起同样给其带来了巨大的冲击。博文中指出,GenAI 正威胁要自动化计算机科学领域的核心智力任务,引发了该领域自身的“存在危机”。
想象一下这样的场景:一名学生投入四年宝贵时光,刻苦学习 Python 编程,在 2021 年踌躇满志地毕业,却猛然发现,如今的 AI 工具能在短短几分钟内生成、调试甚至优化他曾需要耗费数十个小时才能完成的代码。这不只是效率的指数级提升,更是对计算机科学教育核心价值的根本性质疑。传统的计算机教育,尤其是那些侧重于特定编程语言语法、框架使用和基础算法实现的课程,是不是还在为那些可能在学生毕业之时就已经被 AI 大幅改变、甚至趋于消失的工作岗位培养人才?
当 AI 能够完美地处理语法细节(比如曾经让无数初学者头疼的分号和括号匹配)、自动生成功能模块、甚至提出调试建议时,我们对“计算机科学家”核心能力的定义也必须随之演变。仅仅掌握编程的“技术”层面——即如何按照规则编写代码——似乎正在迅速贬值。
计算机科学领域开始弥漫一种担忧:未来会不会培养出一代只会熟练“提示(prompt)”AI、却对底层的计算原理、数据结构选择的深层原因、系统设计的复杂权衡知之甚少的“开发者”?这种对核心能力空心化的恐惧,使得计算机科学也开始深刻反思其教育目标和评估方式,与人文学科一同陷入了对自身未来价值的追问。
融合的潜力
博文指出,面对 GenAI 带来的共同震荡,计算机科学和人文学科并非只能被动地接受冲击。恰恰相反,这场看似摧毁性的危机,可能蕴藏着前所未有的机遇——一个推动这两个长期以来被视为分属“科学”与“人文”、“硬”与“软”两极的领域,走向深度融合、实现共同振兴的历史性契机。
GenAI 最直观的贡献在于其强大的自动化能力,能够将人类从大量重复性、规则导向的智力劳动中解放出来。对于人文学者而言,这意味着可以借助 AI 加速处理浩如烟海的历史档案(如自动转录手写文献、快速翻译多语种资料、初步进行大规模文本模式分析);对于计算机科学家而言,则意味着可以将繁琐的代码调试、单元测试用例的生成、样板代码的编写等任务部分委托给 AI。
这种解放并非意味着智力的外包,而是将人类有限的认知资源——注意力、创造力、批判性思维——从“技术性”的束缚中释放出来,使其能够更专注于更深层次的智力探索、更具原创性的思考和更复杂的跨领域问题解决。
早期的图形化编程环境即是如此,如卡内基梅隆大学开发的 Alice 和麻省理工学院开发的 Scratch,它们通过降低编程语言的语法门槛,使得学习者能够更早、更直接地接触和实践计算思维的核心——问题分解、逻辑构建和算法设计。同样地,GenAI 也有潜力通过自动化处理语言、数据等基础性任务,降低人文学科和计算机科学的入门门槛,让更多人能够接触并深入其核心的问题。
作者指出,这种“民主化”效应带来的影响可能远比想象的深远。在人文学科,长期以来,精通多种语言往往是进行深度研究(尤其是在古典学、中世纪史、比较文学等领域)的先决条件。
在以往,要全面研究犹太人大屠杀,学者可能需要处理德语、波兰语、俄语、法语、意第绪语甚至希伯来语的档案材料,这极大地限制了研究的广度和参与者的范围,迫使学者往往只能专注于特定区域。
GenAI 强大的机器翻译和转录能力,虽然不能完全取代语言专家的深入理解,但无疑能极大地辅助学者跨越语言障碍,进行更宏观、更全面的文献梳理和初步分析,将更多精力投入到阐释和论证上。这不仅有望吸引更多元化的学生群体(他们可能因语言学习的畏难情绪而却步),更能激发学者提出更大胆、更具比较视野的研究问题。
例如,系统性地比较中世纪阿拉伯文学与现代日本文学中的特定叙事母题,或是追踪某个哲学概念(如“正义”或“自由”)在亚洲、非洲和欧洲不同历史时期、不同文化传统中的演变轨迹——这些在过去对于单一研究者而言几乎是无法想象的、需要庞大团队耗费数十年才能完成的全球性比较研究,如今在 AI 的辅助下,其可行性大大增加。
超越“技术”的智慧
GenAI 的冲击迫使我们直面一个根本性问题:当机器能够高效、甚至在某些方面超越人类地完成许多明确定义的“任务”之后,人类的独特且持久的价值究竟寄寓何处?答案就在于那些超越具体“制造”技能的领域。
这里,我们可以借鉴一下亚里士多德关于知识类型的区分。他区分了 Techne(技艺/技术)和 Phronesis(实践智慧/明智)。Techne 关乎“如何制作”,是遵循规则、可传授的制作知识,其成果是外在的产品。AI 在 Techne 层面表现出色,擅长执行规则、生成内容。而 Phronesis 则关乎在具体的、复杂的人类实践中“如何行动”,它要求情境化的判断、价值权衡和对整体目标的把握,是关乎“做正确的事”的智慧,难以被规则完全捕捉。
AI 在模仿和执行 Techne 方面的高效,恰恰凸显了人类在 Phronesis 方面不可替代的价值。当 AI 能轻易完成编码、写作等技术性任务时,人类的重心就需要转向那些更依赖实践智慧的方面。
对于计算机科学而言,这意味着超越单纯的编码能力,更加强调判断力(选择解决什么问题、如何设计系统)、批判性思维(评估 AI 的局限与风险)、伦理考量(理解技术应用的社会后果)以及系统性思维(把握复杂系统的整体性与交互影响)。核心不再是“你会不会写”,而是“你是否知道为何这样写、何时应用、以及如何负责任地引导技术”。
对于人文学科而言,其传统优势本就与培养实践智慧紧密相关。在信息泛滥、AI 能生成海量内容的时代,人文学科训练的深度阐释能力、批判性分析能力、伦理思辨能力、历史语境化能力和跨文化理解能力变得更加关键。这些能力帮助我们辨别信息真伪、理解复杂现象背后的意义、进行价值判断、并在不确定的世界中做出更明智的选择。
因此,AI 时代并非宣告技能的终结,而是促使价值重心从可被自动化的“技艺”(Techne)向更需人类判断、理解和责任感的“智慧”(Phronesis)转移。这要求两个领域都必须重新定位其教育目标和核心竞争力,培养能够在复杂现实中进行审慎思考和明智行动的人才。
结语:在危机中拥抱机遇
回到最初的问题,AI 时代,人文学科死了吗?计算机科学会因为自动化而失去其核心价值吗?答案显然是否定的。相反,这两个领域正面临着一个共同的挑战,这个挑战迫使它们都必须超越自身传统的边界,重新审视其核心使命和价值所在。
这场由 GenAI 引发的变革,或许可以称之为“人工智能转向”(AI Turn),与以往的“语言转向”(linguistic turn)或“空间转向”(spatial turn)不同,“AI 转向”不仅改变了我们获取知识的方式,更根本性地挑战了知识主体与知识客体之间的关系。
在传统认识论框架中,知识生产遵循主体-客体的二元模式:人类主体通过观察、分析和解释来认识客体世界。GenAI 引入了一种三元模式:人类主体、AI 中介与知识客体相互作用。在这种新模式中,知识不再是人类主体对客体的直接把握,而是通过与 AI 系统的互动协作而产生的。
这种三元认识论结构引发的不仅是方法论上的调整,而是对知识本质的重新思考。当我们使用 GenAI 分析哲学概念或优化算法时,最终产生的见解既不完全属于人类,也不单纯源于 AI,而是两者互动的结果。这种“混合认知”(hybrid cognition)模式挑战了传统上将知识归属于个体认知主体的观念,转而指向一种更为分布式和协作性的知识生产方式。
结论是,GenAI 带来的挑战是真实的,但它所开启的机遇同样是前所未有的。通过拥抱这种变革,计算机科学和人文学科不仅能够克服各自的“存在危机”,更能在一个日益由技术塑造的世界中,找到新的、共同的、且更为重要的存在意义。这场融合,关乎的不仅是学术的未来,更是我们如何在一个“AI 增强”的世界中,更好地理解自身与创造未来。
参考资料:
1.https://cacm.acm.org/blogcacm/the-converging-paths-of-computer-science-and-the-humanities-in-the-age-of-genai/
2.https://cacm.acm.org/blogcacm/assessment-in-computer-science-education-in-the-genai-era/
排版:初嘉实
2025-04-19 17:38:19
一款 AI 模型,让“癌中之王”胰腺癌的早期筛查和诊断有了新的希望。
最近,由阿里巴巴达摩院(以下简称“达摩院”)研发的胰腺癌筛查 AI 模型 DAMO PANDA 获得了美国食品药品监督管理局(FDA,Food and Drug Administration)“突破性医疗器械”认定。这标志着中国科技企业在医疗 AI 领域的重要突破,也是中国企业第一次获得这项权威认可。
这一突破性进展源于达摩院在国际上首创的“平扫 CT AI 筛查方案”。该研究团队联合全球顶尖医学机构,成功开发出 DAMO PANDA 模型,其创新性在于能够通过常规非增强 CT 图像实现胰腺病变的高效检测和精确分类。
值得注意的是,传统胰腺癌筛查往往需要依赖增强 CT 或核磁共振成像等复杂检查手段,而该模型仅需平扫 CT 即可完成筛查,大大降低了检查成本和操作复杂度。
测试数据显示,这款 AI 模型筛查敏感性和特异性分别高达 92.9% 和 99.9%。这意味着,DAMO PANDA 模型为胰腺癌的早期筛查和诊断提供了一种具有革命性意义的工具,它不仅能够精准地检测出大多数早期胰腺微小病变,而且该能最大限度地减少误报情况(假阳性结果)的发生。
相关论文以《非对比 CT 和深度学习的大规模胰腺癌检测》(Large-scale pancreatic cancer detection via non-contrast CT and deep learning)为题发表在 Nature Medicine[1]。
胰腺癌作为全球第十二大常见癌症,高度恶性的生物学特性使其成为实体恶性肿瘤中最致命的类型之一。
由于早期缺乏特异性临床症状,大多数患者在确诊时已进展至晚期且失去手术机会,这一临床特点直接导致了胰腺癌患者预后极差。
尽管早期筛查被公认为改善预后的关键策略,但传统筛查方法面临巨大挑战:一方面,非特异性症状导致筛查假阳性率居高不下;另一方面,现有影像学检查手段在早期病变识别上存在明显的局限性。
在这一背景下,非增强 CT 因其低辐射剂量和无造影剂风险的特性,成为极具潜力的筛查工具。然而,长期以来医学界普遍认为仅凭非增强 CT 难以实现胰腺癌的准确检测。
针对这一技术瓶颈,达摩院联合多家权威医疗机构创新性地开发了基于深度学习技术的 AI 模型 PANDA。
该模型通过三重创新架构实现了技术突破:首先采用医学图像分割方法 nnU-Net 精确定位胰腺区域,然后运用多任务卷积神经网络(CNN,Convolutional Neural Networks)检测病变,最后引入记忆 Transformer 网络完成亚型分类。
特别值得一提的是,研究团队开发的“胸部 CT 数据增强”策略使模型能够适应不同扫描范围的影像,即使胰腺仅部分显影,仍能通过识别胰管扩张等继发征象实现 86% 的病变检出率。
在严格的临床验证中,PANDA 模型展现出卓越的筛查效能。研究团队首先在单一中心的 3208 名患者数据集上进行模型训练,随后在多中心的 6239 名患者中开展验证。
结果显示,该模型在检测胰腺病变方面达到 92.9% 的灵敏度和 99.9% 的特异性,曲线下面积(AUC,Area Under the ROC Curve)高达 0.986-0.996。与放射科医师相比,PANDA 在检测胰腺腺癌方面的灵敏度提升了 34.1%,特异性提高了 6.3%。
更令人振奋的是,在 20530 例连续患者的真实世界验证中,该系统成功检出 26 例被临床初诊漏诊的胰腺病变,其中包括 1 例可通过手术治愈的早期胰腺癌。
此外,当 PANDA 与非增强 CT 联合使用时,在对常见胰腺病变亚型进行区分时展现出与增强 CT 放射学报告相当的效果,这一发现极大地拓展了该技术的临床应用场景。
同期发表在 Nature Medicine 的评论文章对该研究高度评价 [2]:“该方法的准确性指标优于宫颈癌的巴氏涂片或乳腺癌的乳腺 X 线摄影等公认的筛查方法,这使得人们有理由将该方法整合到大规模筛查工作中。”
目前,这项突破性技术已获得国际社会广泛认可。2024 年 5 月,达摩院受邀在联合国 AI for Good 峰会上展示该项技术,并和世界卫生组织数字健康合作中心达成战略合作,共同推动 AI 早筛技术在发展中国家的应用。
在国内临床实践中,PANDA 模型也展现出显著价值。例如,在宁波大学附属人民医院的 4 万余人筛查中,成功发现 2 例常规检查漏诊的早期病例。其中,一名患者肿瘤直径仅 1.5 厘米,并因本次筛查得以及时接受手术治疗。
未来,该技术将进一步扩展全球范围内的推广应用,有望为改善这一“癌王”的治疗预后带来更高效的 AI 解决方案。
参考资料:
1.Cao, K., Xia, Y., Yao, J. et al. Large-scale pancreatic cancer detection via non-contrast CT and deep learning. Nature Medicine 29, 3033–3043 (2023). https://doi.org/10.1038/s41591-023-02640-w
2.Kleeff, J., Ronellenfitsch, U. AI and imaging-based cancer screening: getting ready for prime time. Nature Medicine 29, 3002–3003 (2023). https://doi.org/10.1038/s41591-023-02630-y
运营/排版:何晨龙
2025-04-19 17:34:07
近日,香港中文大学物理系教授徐磊团队和合作者成功研发一种基于物理吸附的新型纳米二氧化硅材料。这种创新材料由纳米胶体二氧化硅小球组成,具有极高的比表面积。
更重要的是,通过课题组的特殊处理方法,该材料表面的硅醇基团密度达到了普通二氧化硅材料的四倍以上。
这一特性使得该材料对药物分子展现了前所未有的强吸附能力,同时对水分子也表现出显著的亲和力。
基于此,研究团队发现了一个新的现象:当将晶体态的药物与该纳米二氧化硅材料混合时,在干燥条件下,药物分子会被转化为非晶态并吸附在材料表面;而当将这种混合物放入水中时,由于该材料优先吸附水分子,原吸附于材料上的药物分子会被释放出来,形成药物的过饱和溶液。这表明水分子从传统意义上溶解度限制因素转变为促进药物溶解的增溶因子。
这一发现不仅揭示了物质在二氧化硅表面上吸附与释放的新规律,而且为解决难溶性药物的生物利用度问题提供了一种全新的解决方案。
它有望极大地提高药物的水溶性和生物利用度,改善治疗效果,并可能重新激活那些因溶解度问题被搁置的药物开发项目。
此外,该研究成果还为设计更高效的药物载体系统提供了理论依据和技术支持,具有广泛的应用前景。
日前,相关论文以《通过超高硅氧烷密度的二氧化硅纳米表面的竞争性吸附增强药物溶解度》(Enhancing drug solubility through competitive adsorption on silica nanosurfaces with ultrahigh silanol densities)为题发在 PNAS[1]。
Zhuo Xu 是第一作者,香港中文大学物理系教授徐磊和美国哈佛大学教授大卫·韦茨(David A.Weitz)担任共同通讯作者。
从论文投稿到论文接收仅耗时 6 周
徐磊表示:“这篇论文从投递到接收只花费了 6 周,凸显了同行对于工作的认可。”
审稿人指出,“该研究展示了一种显著优于现有方法的技术,在某些情况下性能提升达 2 至 3 个数量级,并具有成为下一代药物递送平台的潜力。”
审稿人指出,本次研究通过提高纳米颗粒表面的硅醇基团密度,该技术不仅能够加速疏水性药物的释放速率,还能大幅增加其释放量。研究还结合密度泛函理论计算,首次从热力学角度证明了这一过程的优势,与以往方法形成鲜明对比。并认为这一成果或将为医药行业带来深远影响,推动疏水性药物递送技术的进一步发展。
首先,其能用于靶向药物递送系统。
随着现代医疗技术逐步迈向精准医疗时代,靶向药物的研发和应用正成为治疗复杂疾病(如癌症、免疫相关疾病等)的重要方向。然而,许多新型靶向药物例如蛋白降解靶向嵌合体和小分子抑制剂等,由于其高度的特异性和复杂的分子结构,往往面临溶解性差、生物利用度低等关键问题,这极大地限制了它们的临床应用。
而该团队的技术基于分子级别的相互作用,与靶向药物的研发逻辑不谋而合,通过开发具有高硅醇基团密度的纳米二氧化硅材料,为这些难溶性药物提供了一种全新的递送解决方案。初步实验结果表明,该技术能够显著提高 CRBN E3 ligase 配体类药物的释放效率和稳定性。这种递送系统有望成为下一代精准治疗药物的标准配置,推动更多靶向药物从实验室走向临床。
其次,其能用于难溶性药物的再利用。
许多因溶解性问题而被搁置的候选药物可能通过本次技术重新焕发活力。通过将其转化为稳定的非晶态并高效递送,这些“失败药物”可以重新进入临床试验,缩短新药研发周期并降低成本。
再次,其能用于基因治疗和生物大分子药物的递送。
虽然目前该技术主要针对小分子药物,但其分子级别的作用机制也为未来扩展到基因治疗载体或生物大分子药物(如抗体、核酸药物)的递送提供了可能性。这将进一步拓宽其应用范围。
“艰难”的转方向和创业
近年来,随着科学研究的进步和对疾病机制理解的深入,新药物分子的研发变得越来越复杂且成本高昂。
特别是在小分子药物领域,尽管许多候选药物在细胞层面表现出优异的效果,但由于其较高的亲脂性导致的水溶性差的问题,使得这些药物在临床试验阶段往往无法达到预期效果。
据统计,大约 60% 至 70% 的小分子药物因为溶解度问题而失败 [2],这不仅增加了研发成本,也延缓了新药上市的时间。
本研究正是基于这一挑战背景下开展的。具体而言,研究团队的目标是开发一种普适性的药物递送系统,以便提高难溶性药物的水溶性及其生物利用度。
通过这种方式,研究团队希望能够重新激活那些因溶解度问题而被放弃的潜在有效药物,并大幅增加新药研发的成功率。
此外,这种递送系统有望缩短药物从实验室到市场的周期,减少研发成本,从而加速创新疗法的问世,为患者提供更多治疗选择。
最初,徐磊等人将研究重点放在了探索引起这种相变的机制上,其发现晶体的药物和该团队的胶体球聚合物混合之后,晶体全部转化为了非晶体。
基于经典成核理论,课题组聚焦于改变孔隙的大小,设计了一系列实验来验证药物成核和纳米材料之间的关系,却发现相比于孔隙大小,表面处理对于实验结果的影响更大。
而且随着进一步的实验进展,研究团队开始注意到这种处理方式不仅能改变药物的物理形态,还能显著提高其溶解度。
进一步的研究表明,在适当条件下,处理后的药物可以达到极高的过饱和状态。这对该团队来说是一个重大的突破,因为这意味着可以解决许多难溶性药物的关键问题。
在这段时间里,课题组集中精力优化纳米材料的制备工艺及其对不同药物的影响,以期找到最有效的配方。
当确认技术的有效性和广泛适用性后,研究团队开始考虑将其商业化。而他们首先面临的挑战是如何将实验室中的技术转化为实际产品。
为此,他们与多家制药公司建立了合作关系,共同探讨如何将这项技术应用于现有药品中。同时,研究团队也申请到了香港政府对商业化项目的资助,这为研究团队提供了必要的资金保障。
获得初步的成功和技术认可之后,研究团队在 2023 年成立初创公司药容科技有限公司,致力于开发基于该技术的药物递送解决方案。
据介绍,药容科技专注于开发基于前沿纳米技术的药物递送解决方案,特别是针对难溶性药物的问题。研究团队的核心技术源自对具有高硅醇基团密度的纳米二氧化硅材料的研究,这种材料能够显著提高药物的溶解性和生物利用度,从而增强治疗效果。
目前,他们正在积极推进产品的研发和临床前测试,目标是尽快将这项创新技术推向市场,为更多患者带来福音。
看似走来很顺利,实则涉过了重重难关。最初,徐磊团队是一个专注于基础物理研究的团队,当时的研究环境和条件与课题组现在所面临的截然不同。
转向应用导向的研究对他们来说是一个巨大的挑战——从实验设计到心态调整,每一步都需要重新学习。
徐磊还清楚地记得第一次基于理论猜想开始实验的时候。那时,研究团队满怀信心地设定了目标,但很快就被现实泼了一盆冷水。实验一次接一次失败,那些日子充满了挫败感。
除了内部的挑战,外部的压力同样巨大。投资人的质疑声不断,他们担心自己的技术能否真正走出实验室。面对这些压力,研究团队请求商业合作者提供样品,用出色的实验结果告诉投资人,将该团队的技术用于商业化产品时依然有着很强的竞争力。
通过这些互动,课题组不仅赢得了投资人的信任和支持,还收到了宝贵的反馈意见,这些建议帮助他们进一步优化了技术和商业模式。
未来,徐磊计划与药物公司合作,将该技术拓展至靶向药物与生物大分子药物这些最新的药物研发领域。
参考资料:
1.https://www.pnas.org/doi/10.1073/pnas.2423426122
1.D. V. Bhalani, B. Nutan, A. Kumar, A. K. Singh Chandel, Bioavailability enhancement techniques for poorly aqueous soluble drugs and therapeutics. Biomedicines 10, 2055 (2022).
运营/排版:何晨龙