MoreRSS

site iconLex 播客单集综述修改

用 Gemini 2.5 Pro 把每个播客单集的逐字稿,生成为综述稿。by Jonathan
请复制 RSS 到你的阅读器,或快速订阅到 :

Inoreader Feedly Follow Feedbin Local Reader

Lex 播客单集综述的 RSS 预览

20260201 - #490 – State of AI in 2026 LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI

2026-02-01 10:50:41

以下是对Lex Fridman播客第490集逐字稿脚本的专业综述:

0:00 – Introduction

本期Lex Fridman播客聚焦于人工智能的最新技术突破和发展,并展望了未来一年的趋势。Lex Fridman邀请了两位在AI社区备受尊敬的机器学习研究员和工程师——Sebastian Raschka和Nathan Lambert作为嘉宾。Sebastian Raschka是《Build a Large Language Model from Scratch》和《Build a Reasoning Model from Scratch》两本书的作者,强调从零开始构建模型是理解AI的最佳方式。Nathan Lambert是艾伦人工智能研究所(Allen Institute for AI)的后训练(post-training)负责人,著有关于人类反馈强化学习(RLHF)的权威书籍。两位嘉宾都以其卓越的沟通、教育和写作能力而闻名。

1:57 – China vs US: Who wins the AI race?

讨论始于2025年1月发生的“DeepSeek时刻”,当时中国开源公司DeepSeek发布了DeepSeek R1模型,以显著更少的计算资源实现了接近或达到SOTA的性能,令业界震惊。自那时起,AI领域的竞争在研究和产品层面都急剧加速。

关于中美AI竞赛的赢家,Sebastian Raschka认为“赢家”是一个宽泛的词。他指出,由于研究人员频繁流动,技术访问上不会有明确的赢家,但预算和硬件将是区分因素,因此不存在“赢者通吃”的局面。

Nathan Lambert补充道,Anthropic的Claude 4.5模型近期引发了巨大关注,而谷歌的Gemini 3尽管早期声势浩大,但后续关注度有所下降,这反映了市场对差异化的需求。他指出,Anthropic因专注于代码而取得成功。在中国,DeepSeek的成功激励了更多公司(如智谱AI的GLM、MiniMax和月之暗面)发布强大的开放权重模型,DeepSeek在“中国开放模型领导者”的地位正受到挑战。

关于中国公司为何持续发布开放权重模型,Nathan Lambert解释说,许多美国科技公司出于安全考虑不愿为中国公司的API订阅付费,因此开放模型成为中国公司在全球(尤其美国)AI支出市场中获取影响力的方式。他预计这一趋势将持续数年,尽管模型构建成本高昂,未来可能出现整合,但2026年将有更多开放模型构建者,其中许多将来自中国。Sebastian Raschka则补充说,尽管DeepSeek可能失去了部分“王冠”,但其早期理念被其他公司借鉴,使得新模型不断超越,这印证了“没有明确赢家”的观点。

Lex Fridman指出Claude 4.5的炒作可能更多集中在X(Twitter)社群,而非广泛用户群体,而ChatGPT和Gemini可能更专注于解决大众日常问题。Sebastian Raschka认为用户习惯和品牌认知是关键,同时模型定制化(如ChatGPT的记忆功能)也促使人们拥有多个订阅,以区分个人和工作用途。

10:38 – ChatGPT vs Claude vs Gemini vs Grok: Who is winning?

在消费级聊天机器人领域,Nathan Lambert认为押注Gemini超越ChatGPT存在风险,因为OpenAI是强大的先驱者,尽管Gemini在2025年取得了巨大进步,但OpenAI在落地方面表现出色(例如GPT-5的路由器功能有效降低了GPU成本)。他预测2026年Gemini将继续追赶ChatGPT,得益于Google在规模、研究与产品分离以及TPU基础设施方面的历史优势。而Anthropic则可能在软件和企业领域取得持续成功。

嘉宾们探讨了AI模型在智能与速度之间的权衡。Sebastian Raschka欣赏GPT-5的“自动模式”,可以根据任务选择快速响应或深入思考模式。他个人日常任务偏好快速模式,而复杂审查(如检查引用、格式)则选择需要更多时间的“专业模式”。Nathan Lambert则偏爱“深度思考”模式,认为非思考模式更容易出错,因此他在工作信息查询、代码参考和哲学讨论上都倾向于使用GPT-5.2 thinking或Claude Opus 4.5。他还提到,在紧急情况下,Gemini适用于快速查询,Grok-4 Heavy则在调试方面表现出色。Lex Fridman则认为Gemini在处理大量上下文中的特定信息检索(“大海捞针”能力)方面表现突出。

他们一致认为,用户选择模型往往是基于初次“惊艳”体验,然后会一直使用直到模型表现“愚蠢”为止,这类似于选择文本编辑器或浏览器。对于长文本处理,尽管Gemini曾是优势,但GPT-5.2在长上下文处理能力上的显著提升也改变了这一格局。

关于中国模型的用户视角,嘉宾们认为目前中国开放模型更以其“开放权重”而非平台用户体验而闻名。Nathan Lambert指出,美国模型在输出质量上通常更胜一筹,用户愿意为此付费。中国模型通过更低的成本或免费服务来竞争,也促进了生态系统的多样化。

21:38 – Best AI for coding

在编程领域,Lex Fridman同时使用Cursor和Claude Code,认为它们提供不同的体验。Sebastian Raschka主要使用VS Code的Cursor插件,欣赏其作为聊天界面能访问代码库,但仍希望掌控代码生成过程。他对Claude Code这种更具“代理性”的工具持谨慎态度。

Lex Fridman指出使用Claude Code有助于培养“用英语编程”的技能,它让用户在宏观层面指导设计,而非微观管理代码细节。Nathan Lambert也认可Claude Code在该领域的出色表现。

讨论转至嘉宾的著作,Sebastian Raschka强调从零开始构建LLM是理解其工作原理的最佳方式,因为代码不会“说谎”。Nathan Lambert的RLHF新书也提供了深入的学习资源。

Lex Fridman分享了一项对791名资深专业开发者(10年以上经验)的调查,结果显示,大多数开发者(包括高级和初级)都在发布的代码中使用AI生成代码,其中高级开发者使用AI生成代码的比例超过50%的情况更为普遍。约80%的受访者认为使用AI使其工作更愉快。Sebastian Raschka认为这取决于任务性质,AI在处理重复性、琐碎任务上表现出色,例如帮助妻子修复播客节目笔记中的数百个链接,这大大提高了效率。但他担心,如果AI完全接管核心任务,可能会减少工作中的成就感和乐趣。

Lex Fridman则将AI辅助编程比作拥有一个“结对程序员”,缓解了编程的孤独感,并帮助跳过“调试的痛苦”。他认为AI在调试过程中提供直觉而非直接答案,有助于共同解决问题。Sebastian Raschka提出“延迟满足”和“金发姑娘区”理论,即适度的挑战能带来成就感,但过度依赖AI可能阻碍个人成长,尤其对初级开发者而言,可能难以成为专家。他建议在投入时间和精力学习核心技能后,再利用LLM提高效率。

28:29 – Open Source vs Closed Source LLMs

关于开放LLM模型的格局,嘉宾们列举了众多知名模型,包括中国的DeepSeek、Kimi、MiniMax、01.AI、月之暗面、Qwen,以及西方的Mistral AI、Gemma、GPT-o1(OpenAI首个开放模型)、OLMo(Allen Institute for AI)、Nemotron-3(NVIDIA)和Stanford的Meerkat Community Project。Nathan Lambert指出,2024年开放模型的数量远少于2025年,这是一个积极的趋势。

开放模型的涌现主要有几个原因: 1. 用户采用与影响力:开放模型让更多人(尤其是不愿为软件付费的用户或受限于本地计算资源的用户)能够使用,从而扩大影响力。 2. 数据安全与隐私:许多用户或企业不愿将敏感数据发送到云端,本地运行开放模型提供了解决方案。 3. GPU资源利用:对于OpenAI等GPU资源紧张的公司,发布开放模型可以将部分计算负荷转移到用户侧,降低自身服务成本。 4. 定制化与专业化:开放模型可以被企业定制、微调,以适应法律、医疗等特定领域的需求,形成垂直领域的AI应用。 5. 宽松的许可协议:许多中国开放模型采用无限制的开源许可,相较于Llama或Gemma等有用户数量限制或财务报告要求的模型,更具吸引力。

Sebastian Raschka特别提到了DeepSeek-V2/R1和DeepSeek-V3的架构创新,如MoE(Mixture of Experts)、多头潜在注意力(Multi-head Latent Attention, MLA)、分组查询注意力(Grouped-Query Attention, GQA)和滑动窗口注意力(sliding window attention),这些技术主要旨在提高推理效率和长上下文处理能力,同时降低成本。他还强调了Qwen2.5-1M引入的门控Delta网络(gated delta net),受状态空间模型启发,旨在用更便宜的操作替代注意力机制。

Sebastian Raschka还特别指出GPT-o1的意义,它是首个真正将“工具使用”(tool use)作为设计理念的开放权重模型,这被视为一个范式转变。工具使用(如调用网络搜索或Python解释器)有助于减少LLM的幻觉,使其在数学问题或信息查询上更可靠。他认为,尽管目前开放生态系统尚未充分利用工具调用模式(部分原因在于信任和安全考量,如容器化运行),但这将是未来几年的重要发展方向。

尽管开放模型数量激增,但嘉宾们指出,目前美国模型在输出质量上仍占优,这促使他们付费使用。同时,中国开放模型在服务方式上可能由于出口管制或其他原因,每个副本使用的GPU数量较少,导致速度较慢,误差也不同。

40:08 – Transformers: Evolution of LLMs since 2019

Sebastian Raschka回顾了Transformer架构的演变。最初的“Attention Is All You Need”论文提出了包含编码器和解码器的Transformer架构,而GPT系列模型主要专注于解码器部分。从GPT-2到GPT-4o,核心架构并未发生根本性改变,依然是神经网络层与注意力机制的结合。主要的创新包括: 1. Mixture of Experts (MoE):并非由GPT系列发明,但被广泛采用,它允许模型在不增加每次前向传播计算量的情况下扩展模型规模。MoE通过“路由器”机制,根据输入token选择性地激活部分前馈网络(“专家”),从而在不激活所有参数的情况下,增加模型的总容量。这使得模型能打包更多知识,但并非所有知识同时被使用。 2. 注意力机制的优化:例如,GPT-MoE采用了分组查询注意力(Grouped-Query Attention, GQA),以及多头潜在注意力(Multi-head Latent Attention, MLA)和滑动窗口注意力(sliding window attention)等变体,旨在提高推理效率和KV缓存(Key-Value Cache)利用率。 3. 归一化层和激活函数的调整:例如用RMSNorm替代LayerNorm,以及改变非线性激活函数,这些都是小的“调整”,而非根本性变革。

Sebastian Raschka强调,GPT-2模型与Llama 3或OLMo等现代模型在架构上仍是“同宗同源”,通过添加或修改少量组件即可相互转换。他提到,虽然AI领域看似日新月异,但核心架构的稳定表明,进步更多地发生在训练阶段(预训练、中训练、后训练)和系统工程层面。

Nathan Lambert补充说,系统层面的进步也非常重要,例如NVIDIA在FP8/FP4等浮点格式上的创新,使得GPU能更高效地利用计算资源,从而加快训练速度和实验迭代。这些系统优化使得单位时间内每GPU处理的tokens数量大幅增加,虽然架构不变,但训练代码和GPU效率却大相径庭。

Sebastian Raschka也提到,除了Transformer,也有其他替代方案正在出现,如文本扩散模型(text diffusion models)和Mamba模型(状态空间模型)。然而,目前在SOTA性能上,自回归Transformer架构仍占据主导地位。

48:05 – AI Scaling Laws: Are they dead or still holding?

Nathan Lambert解释了“缩放法则”(scaling law)的定义:计算资源和数据量与模型在预测下一个token的准确率之间存在幂律关系。他认为,传统的预训练缩放法则依然成立,并且在强化学习训练(RL scaling)和推理时计算(inference-time scaling)方面也发现了类似的缩放规律。因此,他“看好”所有形式的缩放法则。

他指出,过去一年在强化学习方面,尤其是在“可验证奖励强化学习”(Reinforcement Learning with Verifiable Rewards, RLVR)和推理时计算方面取得了显著进展,这些使得模型在工具使用和软件工程方面的能力发生“阶跃式”变化。模型现在可以进行更长时间的“思考”,例如尝试工具、检查API返回结果,从而实现更强大的代码执行、Git操作或信息搜索能力。

关于预训练缩放,Nathan Lambert表示虽然低垂的果实已被摘取,且成本极高(数百万美元的训练成本,数十亿美元的服务成本),但模型通过增加计算量仍然可以变得更智能。他引用AI公司领导者的观点:“它在13个数量级的计算中都成立,为什么会停止?”他预计2026年将有更多巨型计算集群(如Blackwell架构)上线,进一步推动模型规模和能力。推理时缩放也被视为重要方向,它可以通过增加单次查询的计算投入,显著提升模型的智能水平。

对于预训练是否“已死”的观点,Nathan Lambert认为这更多是一种“氛围”,即兴奋点已转向其他领域,但实际操作中,大多数计算资源仍投入到预训练中,以获得更好的基础模型。

Sebastian Raschka补充说,缩放法则仍在发挥作用,理想情况下,无限计算资源可以用于所有阶段(预训练、中训练、后训练和推理缩放)。但在有限资源下,这是一个权衡问题,例如是否值得投入巨资训练一个更大的模型,如果半年后就会被新模型取代。他认为,当前推理缩放的“性价比”更高,例如OpenAI的o1模型通过推理缩放使小模型表现超越了未经此处理的大模型。

两位嘉宾一致认为,预训练并未“死亡”,只是目前有其他更具吸引力的缩放方式。长期来看,预训练仍是提升基础模型能力的关键,但决策者需要权衡投入成本与模型生命周期。

1:04:12 – How AI is trained: Pre-training, Mid-training, and Post-training

预训练 (Pre-training): Sebastian Raschka解释,预训练是经典的“一次一个token”的下一词预测任务,利用庞大的互联网数据、书籍和论文语料库进行交叉熵损失训练。近年来,预训练数据不仅追求数量,更注重质量,包括使用合成数据。合成数据并非纯粹的AI虚构内容,而是通过对现有高质量文本(如维基百科文章)进行复述、总结、问答转换等方式,生成结构更优、语法更准确的数据。这样做能让LLM更快地学习正确的表达方式,提高训练效率。

Nathan Lambert补充说,预训练数据集的规模以“万亿tokens”衡量,顶级实验室甚至可能达到100万亿tokens。数据质量至关重要,例如AI2的Dolma项目利用OCR技术从海量PDF文档中提取文本数据。合成数据还包括利用ChatGPT等模型生成的“最佳答案”进行训练。随着模型任务范围(如数学、代码)的扩展,数据集也需要相应地重新混合,通过科学方法(如对不同数据源进行小样本训练,并评估性能)优化数据集组成。Reddit和arXiv等来源也被认为是高质量数据。

关于数据来源的法律问题,Sebastian Raschka指出,训练数据的保密性非常高,部分原因在于法律合规性。存在购买授权数据进行训练的“灰色地带”,以及使用盗版书籍(如Anthropic曾因此被判赔15亿美元)的明确违规行为。他认为,随着LLM的普及,制药、法律、金融等行业最终会自行开发基于专有数据的内部模型,这将是领域特定AI的巨大机遇。

Lex Fridman提出了LLM生成数据对未来训练的影响问题。Nathan Lambert认为这是不可避免的趋势,但最大的挑战在于基础设施和系统。他认为,由人类策展的LLM生成数据(Human-in-the-loop, HIL)可能成为解决方案。Sebastian Raschka以自己的开源库为例,指出LLM辅助生成的PR可能需要维护者投入更多时间审查,但也提供了价值,因为有人类参与验证和过滤。这类似于RLHF中数据标注的成本,经过人类验证的AI生成内容可以提高数据质量。

嘉宾们还讨论了LLM对信息消费的影响。Lex Fridman认为LLM摘要往往会丢失原文的“洞察”和“声音”。Nathan Lambert将其归因于RLHF的平均化效果,模型难以捕捉研究者那种原始、高信息量但可能不那么“中规中矩”的声音。他提到,RLHF在提高模型实用性的同时,也可能限制了其“锐利”的表达。Lex Fridman担心,随着社会对AI的担忧(如AI引发自杀案例的媒体报道),公司可能会为了避免法律风险,进一步削弱AI模型的“棱角”,使其变得更加通用和无害,从而失去深度对话和挑战用户的能力。

中训练 (Mid-training): Sebastian Raschka解释,中训练介于预训练和后训练之间,通常采用与预训练相似的算法,但更侧重于特定类型的数据,例如长上下文文档。这是因为长上下文文档的数量相对稀少,不适合在整个预训练阶段平均分布。中训练还需要应对“灾难性遗忘”问题,即模型在学习新知识时可能遗忘旧知识。其核心思想是通过选择高质量、有针对性的内容,确保模型在训练后期接触到关键信息。

后训练 (Post-training): Sebastian Raschka指出,后训练是模型的精细化阶段,包括监督微调(Supervised Fine-Tuning, SFT)、DPO(Direct Preference Optimization)、RLHF(Reinforcement Learning from Human Feedback)和RLVR(Reinforcement Learning with Verifiable Rewards)等。这些阶段主要用于“解锁”模型在预训练阶段获得的知识,使其具备解决问题的能力,更像是“技能学习”而非知识获取。尽管也有关于RL用于预训练的研究,但目前尚未在生产环境中大规模应用。

1:37:18 – Post-training explained: Exciting new research directions in LLMs

Nathan Lambert指出,2025年后训练最大的突破是可验证奖励强化学习(RLVR)。RLVR的核心思想是让模型在可验证的任务(如数学问题或编程任务)上生成答案,然后根据答案的正确性(而非人类偏好)作为强化学习的奖励。这种训练范式使得模型能进行大量的迭代生成和评分,从而学习到工具使用(搜索、运行命令并查看输出)和推理时缩放(inference-time scaling)等行为。他指出,RLVR与推理时缩放之间存在紧密联系,共同推动了模型能力的“阶跃式”变化。

Nathan Lambert曾是Tulu 3团队的一员,他们提出了RLVR这个术语,尽管DeepSeek在实际训练规模上取得了突破。他进一步解释了RLVR的工作原理:奖励是基于在可验证任务(如数学、编程、事实领域或特定指令约束)上的准确性。模型通过反复尝试并接收梯度更新,快速学习这些技能。这与传统的RLHF不同,RLHF优化的是基于人类偏好的奖励模型,而RLVR则直接优化可验证的客观指标。

Sebastian Raschka补充道,RLVR的“美妙之处”在于,当模型解决数学问题时,它会自发地生成分步的解释和推导过程,就像人类一样。即使这些解释不总是完全正确或与最终答案无关,但“解释”本身有助于提高模型的准确性,并为人类提供信任和可验证性。这种推理时生成的“思考”过程(“aha moments”)是DeepSeek R1论文的亮点,模型甚至能自我纠正错误。

然而,Nathan Lambert也对某些“aha moments”的真实性提出质疑,认为模型在预训练阶段可能已经“见过”大量人类解释和纠错的例子。他提到Qwen 2.5基础模型在MATH-500基准测试上的快速精度提升(从15%到50%),这在短时间内不可能学习到新的数学知识,而更可能是解锁了预训练中已有的知识。但他也指出,Qwen系列模型存在数据污染的争议,可能在训练数据中包含了与测试集相似的问题,使得RLVR的结果难以完全归因于学习。

关于后训练的“配方”: 1. 中训练:提供丰富的“推理痕迹”(reasoning traces)数据,即模型将问题分解为中间步骤并尝试解决的过程,为后续RL训练打下基础。 2. RLVR:让模型在难度不断增加的可验证问题上进行大量试错学习,模型会学习如何利用更长的推理链和工具。随着模型能力的提升,需要不断寻找更难的问题来提供训练信号。 3. RLHF:作为“画龙点睛”之笔,用于微调模型的组织、风格和语气,使其更具用户友好性和吸引力。RLHF可以塑造模型的“个性”,例如使其更具创造性或更擅长特定格式(如Markdown列表)。

计算资源方面,Nathan Lambert指出RLVR所需的计算量不断增加,一些研究表明预训练和后训练可能消耗相似的计算量。然而,两者的硬件需求不同:预训练是计算密集型(FLOPS受限),而RL训练则更多受内存限制,因为它涉及生成长序列和KV缓存。RL运行通常在GPU小时数或实际耗时上接近预训练,但可能不会同时使用大量GPU。由于大规模训练的失败风险,实验室通常避免预训练运行超过一个月。

Sebastian Raschka补充道,RLHF的收益在达到一定风格和偏好点后会趋于饱和,而RLVR则可以持续通过解决更复杂的问题来获取收益。未来的RLVR 2.0可能聚焦于“过程奖励模型”(process reward models),对推理过程中的中间步骤进行评分。Nathan Lambert提到“价值函数”(value functions)是另一个令人兴奋的研究方向,它为语言模型生成的每个token赋予价值,但目前仍缺乏实际验证。

Nathan Lambert强调,与RLHF不同,RLVR遵循可扩展的范式,可以通过增加计算量获得持续的性能提升,而RLHF在某个点后,额外的计算投入效益递减。然而,这种大规模RL训练的成本(例如Meta一次实验需耗费数万美元的GPU小时)对于普通学者来说难以承受。

1:58:11 – Advice for beginners on how to get into AI development & research

Sebastian Raschka的建议: 1. 从零开始实现简单模型:从GPT-2这类小型模型开始,自己动手实现,在本地计算机上运行。目标不是替代现有模型,而是理解LLM的内部机制(预训练、监督微调、注意力机制)。 2. 利用现有库反向工程:当有了基础后,可以参考Hugging Face Transformers库中的模型(如Llama 3)的权重和配置文件,了解其架构细节(层数、GQA、位置编码等),然后在自己的GPT-2基础上逐步添加这些组件。通过与参考实现进行单元测试,验证自己的架构正确性,这种“挣扎”的过程能带来深刻理解。

Sebastian Raschka强调,Hugging Face Transformers库虽然庞大而复杂,不适合初学者直接阅读,但它提供了可验证的实现,是学习的好工具。

Nathan Lambert的建议: 1. 打好基础:他认为Sebastian的书对于像他这样从RL和机器人领域转入LLM的人来说至关重要,理解Transformer架构的基础是必不可少的。 2. 在细分领域深耕:AI领域发展迅速,许多问题尚未完全解决。通过深入阅读相关论文,并积极参与在线社区,可以找到尚未被完全探索的狭窄研究领域。 3. 通过评估贡献:对于计算资源有限的学者,专注于模型评估是一个有影响力的方向。通过设计能揭示模型特定弱点或能力的评估基准,如果这些基准被前沿实验室采纳,将极大地推动个人职业发展。这需要预测未来模型的薄弱环节。 4. 平衡学术与工业:他指出,学术界(攻读博士学位)提供长期且有趣的深层研究机会,但薪资较低,需要稳定的安全网。而加入顶级AI实验室(如OpenAI、Anthropic)则提供高薪和直接影响数百万用户的机会,但也可能意味着成为“机器中的齿轮”,出版机会减少,且工作强度大(如“996”文化)。初创公司则是高风险高回报的选择。

Sebastian Raschka补充说,他在学术界和工业界都工作过,认为两者各有优缺点。工业界提供更高的薪资和规模化的影响力,但保密性强,出版机会少。学术界则有更多自由度进行研究和出版,但资金紧张且成果发表压力大。他认为,关键在于个人偏好。他也强调,开放源代码对于教育和培养下一代研究人才至关重要,否则人才的培养将受限于少数封闭实验室。

2:21:03 – Work culture in AI (72+ hour weeks)

Lex Fridman提到了“996”工作文化(早上9点到晚上9点,一周工作6天,即72小时以上),并询问这是否已成为硅谷AI公司的常态。

Sebastian Raschka认为,虽然不一定是严格的“996”,但AI行业确实存在这种高强度工作趋势。他回忆起自己读博时作为教授也面临类似压力(教学、科研、申请基金),但现在感觉顶级实验室的压力更大。

Nathan Lambert补充道,教授们虽然工作量大,但与学生合作、指导和使命感带来的成就感让他们更快乐。而在前沿实验室,高强度的竞争和对快速进步的追求促使员工投入大量时间。这种竞争文化(例如Anthropic以其高度凝聚和有条不紊的文化闻名)是AI领域取得突破的重要驱动力,但代价是“人力资本”的消耗,导致员工倦怠。他引用《苹果在中国》一书,提到苹果工程师在构建中国供应链时的工作强度甚至导致死亡,这反映了以人类牺牲换取进步的代价。

Sebastian Raschka指出,许多员工并非被迫加班,而是出于对产品的热情和对行业前沿的痴迷。他本人也曾因过度工作而健康受损,但这是出于内在的驱动力。

2:24:49 – Silicon Valley bubble

Lex Fridman将硅谷描述为一个“回音室”或“泡沫”,认为这不一定是负面词,因为这种“现实扭曲场”效应可以极大地提高生产力,让人们相信突破即将到来,并因此真的促成了突破。

Nathan Lambert引用了Byrne Hobart关于泡沫的分类,认为AI目前处于“构建泡沫”阶段,推动了实际建设。但他担心它可能转向“金融泡沫”。

Lex Fridman指出,这种“现实扭曲场”也可能导致脱离现实,对美国中西部或其他不同文化背景的人类经验产生误解。这种偏差可能导致严重的后果,无论AI最终成功与否。他强调,对于身处硅谷的年轻人才,虽然身处其中能最大限度地发挥影响力,但也应走出泡沫,阅读历史、文学,并访问其他地方,避免过度依赖Twitter和Substack上的信息。Nathan Lambert也推荐了一本关于旧金山历史的书籍《Season of the Witch》,以提醒人们了解当地复杂的历史背景。

2:28:46 – Text diffusion models and other new research directions

Sebastian Raschka介绍了文本扩散模型(Text Diffusion Models)作为自回归Transformer的替代方案。他解释道,扩散模型最初在图像生成领域(如Stable Diffusion)取得了成功,其原理是迭代地对噪声图像进行去噪,从而生成高质量图像。现在,研究人员正尝试将其应用于文本领域,尽管文本是离散的,与连续的像素不同。

文本扩散模型的工作原理类似于Google的BERT模型,它不是像GPT那样一次生成一个token,而是从随机文本开始,通过多次迭代并行地填充缺失部分或细化文本。这种并行化处理有望提高效率。然而,其权衡在于文本质量:目前研究表明,要达到与自回归模型相同的质量,可能需要增加去噪步骤,从而消耗相似的计算量。此外,扩散模型在需要顺序推理或工具使用的任务上(如调用代码解释器)可能不如自回归模型灵活。

尽管如此,文本扩散模型仍是一个有趣的研究方向。Sebastian Raschka提到Google发布的Gemini Diffusion模型,声称在多数基准测试中能以更快的速度生成相同质量的内容。他预测文本扩散模型不会完全取代自回归LLM,但可能成为未来快速、廉价、大规模文本生成任务(例如免费服务层级)的选择。

Nathan Lambert补充说,文本扩散模型有望在代码生成等领域发挥作用,例如快速生成长篇代码差异(code diffs),因为自回归模型生成这些可能需要数分钟,影响用户体验。他表示,目前它在代码初创公司中已有应用。但他认为,缺乏工具使用(tools use)的集成是阻碍文本扩散模型更通用化的一个主要因素。

2:34:28 – Tool use

Sebastian Raschka认为,工具使用(Tool Use)是AI领域未来的重要发展方向,尤其是在开放源代码工具中将会有更多应用。它能将LLM从单纯的记忆任务(可能导致幻觉)转向实际计算,例如让LLM使用计算器进行数学运算,或通过网络搜索获取实时信息,从而显著减少幻觉。但这并不能完全解决幻觉问题,因为LLM仍需判断何时调用工具,以及搜索结果本身的正确性。

他提到了“递归语言模型”(recursive language model)这一酷炫概念,它将复杂的长上下文任务分解为多个子任务,并递归地调用LLM来解决这些子任务,同时集成工具获取信息,最终将结果拼接起来。这种方法能提高解决复杂问题的准确性,并节省内存。

然而,工具使用的主要挑战在于信任和安全。用户需要授权LLM访问外部工具和个人系统(如电子邮件),这涉及到巨大的风险。Nathan Lambert补充说,开放模型和封闭模型在使用工具方面存在差异:开放模型需要与多种工具和用例兼容,而封闭模型则可以深度集成特定工具。他认为,封闭模型在处理公私混合信息和自动化特定任务(如GitHub仓库更新)方面具有优势,因为它们通常运行在安全的云环境中。开放模型要实现类似功能,需要更灵活的架构,并可能需要类似“编排器”的角色来协调工具调用。

2:38:44 – Continual learning

Nathan Lambert解释说,持续学习(Continual Learning)是AI社区一个长期且重要的问题,它与AGI(通用人工智能)和ASI(超级智能)的讨论紧密相关。当前LLM的一个限制是它们无法像人类员工一样,根据反馈快速修改自身权重并学习新知识。如果AI要取代远程工作者并成为真正通用、适应性强的智能体,它需要具备快速学习和在职学习的能力。

他个人更看好LLM通过提供大量上下文(in-context learning)来学习。即通过扩展上下文窗口,每次提示时都加载更多信息,让模型通过上下文理解并适应新情境,而非频繁修改模型权重。

Sebastian Raschka认为,权重更新形式的持续学习已经以不同形式存在,例如从GPT-4到GPT-4o的更新。他指出,真正的挑战在于是否能为每个用户提供个性化的、持续更新权重的模型。目前,由于计算成本过高,这在全局模型规模上是不可行的。他预测,只有当技术发展到可以将AI模型部署到个人设备上(如苹果的Apple Intelligence),让模型在消费者设备上从个人经验中学习时,这种个性化的持续学习才有可能实现。

关于记忆(Memory),目前LLM的记忆主要是通过上下文来模拟,将历史信息填充到上下文窗口中。但这也受限于上下文长度和计算成本。LoRA适配器(LoRA adapters)作为一种更经济的权重更新方式,可以实现一定程度的个性化学习,但存在“学习更少但遗忘更少”的权衡。

2:44:06 – Long context

关于长上下文(Long Context),Nathan Lambert认为这本质上是一个计算和数据问题,可以通过微小的架构改变(如注意力变体、混合注意力模型)来优化,这些模型能更高效地处理长序列。然而,获取包含数十万甚至数百万tokens的高质量长上下文训练数据本身就是一项昂贵的工作。他预计,随着计算资源的增加,上下文长度将继续增加(例如从100万tokens到200万或500万tokens),但短期内达到1亿tokens仍需重大突破。

Sebastian Raschka补充道,长上下文处理面临极端权衡:RNN这类模型通过压缩所有信息到一个固定状态来节省内存,但会随着上下文增长而遗忘;Transformer则尝试记住所有token,但KV缓存和点积的增长使其成本昂贵。Mamba层也面临类似问题。他认为,未来的发展方向是在效率和性能之间找到“金发姑娘区”,例如通过Nemotron-3的混合注意力层,平衡全局信息和压缩状态。

“递归语言模型”是解决长上下文问题的另一个思路,它通过将大任务分解为多个小任务,利用多次小型LLM调用来节省内存,并可能获得比一次性处理更好的准确性。

Nathan Lambert还提到,在后训练阶段,代理模型(agentic models)将学习如何自主管理上下文。例如,模型可以控制何时以及如何“压缩”(compaction)其历史记录(即将长文本总结为要点),从而在保持信息质量的同时最小化上下文长度,降低计算成本。DeepSeek-V3的稀疏注意力机制也是类似思路,它选择性地关注相关token,而非所有token,以提高效率。

2:50:21 – Robotics

Lex Fridman指出,AI领域目前最受关注的是LLM,但机器人学也是一个令人兴奋的方向,尽管其进展尚未引起广泛讨论。他询问了世界模型(World Models)在LLM领域的潜在应用。

Sebastian Raschka认为,LLM能力的提升也能间接推动其他领域(如机器人学)的发展,因为研究人员和工程师在这些领域也会利用LLM辅助编程。世界模型是一种让模型运行世界模拟、学习环境动力学的方法,它能让LLM利用自身未直接意识到的数据,进行更复杂的推理。他提到了Meta的“Code as World Models”论文,该研究将世界模型概念应用于LLM,不仅检查最终答案,还验证中间变量的正确性,让模型在代码环境中学习。

Sebastian Raschka还提及了CASP蛋白质结构预测竞赛,AlphaFold的成功在于它最初建模了物理相互作用,尽管后来转向了大规模缩放的“暴力”方法。他推测,LLM也可能在未来重新引入这种“建模”方法,尤其是在世界模型方面。

Nathan Lambert对机器人学习领域感到兴奋,认为LLM领域的投资和基础设施发展极大地推动了机器人学。Transformer作为通用建模工具,其训练基础设施已达到工业级水平,使得机器人模型能更容易地被训练和部署。他预测,未来可能会出现类似于Hugging Face Transformers的开放机器人模型生态系统(如RT-X项目),允许人们贡献数据、微调模型。

然而,Lex Fridman也对机器人领域的“炒作周期”表示担忧。他认为机器人学在短期内难以达到预期,可能导致“热情崩溃”。此外,他强调了机器人技术中安全的极端重要性。LLM的失败可能只是“有趣”,但实体机器人如果在家中或工业环境中出现故障,则可能造成严重伤害。因此,在将具身系统推向现实世界时,需要解决无数未曾预料的问题。

Nathan Lambert对此表示悲观,认为面向消费者的家用学习型机器人短期内难以实现。但他看好自动驾驶汽车工业自动化(如亚马逊的机器人配送中心),这些是为机器人专门设计的受控环境,机器人执行重复性任务更具可行性。他承认这将是一个漫长的过程,且会面临政治和技术挑战。

2:59:31 – Timeline to AGI

关于AGI(通用人工智能)和ASI(超级智能)的时间线,嘉宾们一致认为其定义存在巨大分歧。Nathan Lambert提到一种普遍观点,即AGI是一个能够“复制大多数数字经济工作”的系统,类似于“远程工作者”。OpenAI的定义也与之相关,即能完成一定数量具有经济价值的任务的AI。而ASI则可能涉及“意外的科学发现”或“跨疾病关联性”的发现。

Lex Fridman质疑“远程工作者”定义的模糊性,更偏好《情境意识报告》(Situational Awareness report)中“超人程序员”、“超人AI研究员”等具体里程碑。该报告最初预测2027或2028年实现超人程序员,后推迟至2031年。他个人认为会更晚。

Nathan Lambert对报告中的一些预设和动态表示异议,但他赞赏其提供了具体的里程碑。他认为AI将是“锯齿状”(jagged)的,即在某些方面表现出色,而在另一些方面则非常糟糕。例如,AI在传统ML系统和前端代码上可能超人,但在分布式ML等领域则很差。因此,“超人程序员”可能难以实现,因为总会有能力上的空白,人类将持续与AI协作,弥补其不足。他预测,软件自动化将迅速发展,但AI研究本身的自动化可能需要更长时间。

Nathan Lambert预测,在软件方面,全面自动化可能在10年内实现,但在AI研究等更复杂的领域,时间会更长。

3:06:47 – Will AI replace programmers?

Nathan Lambert认为,软件工程的未来将更多地转向系统设计和成果导向。随着AI能够自动化大部分代码生成,程序员的角色将转变为指导AI、理解系统工作原理,并确保输出质量。他预测,未来几个月内,AI将能够让更多人无需编写代码即可创建软件。

Sebastian Raschka认为,LLM最终会像计算器自动化计算一样,自动化编程。未来用户只需描述所需(例如“构建那个网站”),AI就能生成高质量的网站,人类再进行精修。但问题在于AI是否能独立行动,或者是否始终需要人类作为“请求者”。

Lex Fridman认为“构建网站”的例子过于简单,因为网页开发对“sloppy”代码的容忍度很高。他更倾向于讨论安全关键系统,例如AI端到端生成物流管理或车队管理系统。

Nathan Lambert提出了一个更现实的中间例子:在Slack或Microsoft Word等现有应用中,AI可以很容易地端到端地实现新功能。他预测,这在今年内就能实现,未来几年,许多人将转变为设计师和产品经理,管理多个AI代理来尝试实现功能或修复bug。

Lex Fridman对此表示怀疑,认为在Chrome等复杂系统中添加新功能(例如将标签页从顶部移到左侧)并非一两年内能实现。Nathan Lambert则引用Claude的一次发布,称其能够在沙盒环境中几乎从零重建Slack,这暗示了小型、新建公司可能更能利用AI优势,因为它不受现有“臃肿和复杂性”的限制。

Sebastian Raschka认为,一些程序员的怀疑并非因为LLM做不到,而是因为他们不希望AI以这种方式介入。Lex Fridman承认,这部分是人类的技能问题(如何有效使用LLM),也是规范不明确的问题。他认为,像Anthropic这样的公司在理解如何最佳地利用模型进行编程方面处于领先地位。

关于AGI时间线,嘉宾们认为这些宏大讨论有时与日常工作脱节,但仍有一些有趣的“登月计划”正在进行,例如一些初创公司利用LLM在湿实验室(wet lab)中提出科学假设并进行验证。Sebastian Raschka认为,这将导致更多领域特定AI的出现,而非通用AGI。

3:25:18 – Is the dream of AGI dying?

Nathan Lambert认为,“一个模型统治一切”的AGI梦想可能正在“消逝”,转而走向专业化模型和多模态方向。他指出,Claude虽然是通用模型,但其效用很大程度上取决于集成和工具。他怀疑一个云端模型能够完全处理一个人的整个数字生活,并比所有人更智能的“信仰飞跃”。

Sebastian Raschka则认为,虽然范式可能不会改变,但LLM的能力将持续被“放大”,通过缩放模型、精细化调优以及上下文和推理工程等方面的改进,其进步将持续很长时间。

Lex Fridman提出一个被低估但影响巨大的方面:使人类知识普及化。他认为LLM与传统搜索引擎的根本区别在于,LLM能更直接、更少幻觉地回答任何问题,这对于个人生活、职业规划、学习历史等方方面面都具有深远影响。这种知识的普及化,尤其对全球各地的儿童而言,将带来巨大的GDP增长和创新浪潮,是人类探索火星、建立新公司等宏大目标的基石。

Sebastian Raschka同意LLM使知识更容易获取,但他也认为,对于从零开始学习一个主题,结构化的教科书仍是最佳选择。LLM则可以作为补充工具,提供无限的练习题、背景知识或回答特定问题。他举例说,在规划迪士尼乐园行程这类没有现成信息密集资源的个性化任务上,LLM能提供巨大的价值,因为它能从零开始定制解决方案。

3:32:07 – How AI will make money?

Lex Fridman提到LLM在处理旅行规划、城市探索等信息时,远优于充斥广告的传统互联网搜索。Nathan Lambert则直言,目前LLM的免费体验是“大规模补贴”的结果,最终它们将通过广告盈利。Lex Fridman希望广告能够明确标识,但他承认这将是一个挑战。

Sebastian Raschka也对此表示担忧,预测未来的广告可能以“推广内容”的形式微妙地植入。他认为,目前各公司尚未大规模引入广告,是出于声誉和用户流失的担忧。Nathan Lambert补充说,如果AI能实现更精准、对用户更有价值的广告(例如,帮助小企业找到真正需要其产品的用户),那将是对世界有益的。Google由于其现有的广告供应体系,可能更容易实现这一点。

嘉宾们认为,当前各公司为了争夺用户,不惜投入巨资,这使得广告变现的决定变得复杂。但从长期来看,广告收入可以为研发提供持续的资金支持,从而巩固市场地位。

3:36:29 – Big acquisitions in 2026

Nathan Lambert预测,2026年将出现更多AI领域的整合(consolidation)。他提到了一些高价值的收购案例,如Groq(一家芯片公司)被英伟达收购(谣传200亿美元),Scale AI(一家数据标注公司)被微软收购(近300亿美元)。但他指出,许多交易采取“许可协议”(licensing deal)而非全面收购的形式,这可能对硅谷的初创生态系统不利,因为它通常只让少数顶级人才获益,而普通员工的股权无法变现。

他预计,未来会有更多数十亿美元级别的收购,例如Perplexity(一家AI搜索公司)被苹果收购的传闻。他认为,AI领域的巨大资金流动和对大公司成果交付的压力将推动更多并购。

Sebastian Raschka和Nathan Lambert讨论了Cursor的Composer模型,它通过每天90分钟更新模型权重,基于真实世界用户反馈进行强化学习,这被认为是实时RL的典范。Nathan Lambert认为这很酷,而Lex Fridman则赞赏Composer的快速响应。

关于IPO(首次公开募股),Nathan Lambert认为像Anthropic、OpenAI和xAI这类公司,只要私人融资渠道畅通,就不会急于上市,因为公开市场会带来压力。相比之下,MiniMax和智谱AI等中国公司已经提交了IPO文件,他预计中国市场对AI公司的态度会同样狂热。他个人希望更多美国AI初创公司能够上市,以提供市场透明度和投资机会。

3:41:01 – Future of OpenAI, Anthropic, Google DeepMind, xAI, Meta

Nathan Lambert不认为AI领域会出现“赢者通吃”的局面,因为各公司(OpenAI、Anthropic、Google等)的开发路径高度相似,都在解决类似问题,市场蛋糕足够大。

Lex Fridman指出,OpenAI和Anthropic主要作为LLM服务提供商,而Google和xAI等公司则有更多元的产品线。他猜测,如果AI变得商品化,纯粹的LLM服务提供商可能会面临生存压力。Sebastian Raschka则认为,这些公司拥有庞大的用户基础,可以通过转向特定利基市场来生存,例如Anthropic成功专注于代码。他相信OpenAI的用户规模使其在可预见的未来不会消失。

Nathan Lambert将AI公司比作AWS、Azure和GCP等云服务提供商,认为它们将在API市场竞争。如果API市场利润率低下,这些公司可能会向上或向下整合到产品和硬件层面。他指出,这些公司拥有大量现金流,可以投资建设数据中心和发电厂,形成长期竞争优势。

关于Meta的Llama项目,Nathan Lambert认为其未来充满不确定性。Llama曾是Meta开放模型的代表,取得了巨大成功。但他猜测,Meta内部可能存在对开放策略的争议,马克·扎克伯格(Mark Zuckerberg)曾公开倡导开源AI,但后来似乎又重新评估了与开源的关系。Sebastian Raschka认为,Llama项目后期可能过度追求基准测试表现,而忽视了开放模型“可被使用、信任、修改和理解”的初衷,导致发布的大模型难以运行,并引发社区负面反响。他猜测,这种负面反馈可能促使Meta重新考虑其开源策略。

Lex Fridman强调了马克·扎克伯格推动开源的重要性,认为这为Llama 5的出现留下了可能,前提是Meta能够从过去的经验中吸取教训。Nathan Lambert指出,马克·扎克伯格与Alex Wang(更倾向封闭)在AI组织方向上存在争议,这可能影响Meta未来的开放策略。

Nathan Lambert还提到了美国开放模型(Adam Project),旨在填补Llama式开放模型在美国的空白。他强调,开放模型是AI研究的引擎,美国应构建最佳模型以保持研究领先地位。他呼吁政府和业界增加对美国开放模型的投资,以应对中国开放模型(如Qwen)日益增长的影响力。他提及AI2获得了NSF的1亿美元拨款用于此目的,以及NVIDIA和Reflection AI等公司也开始重视开放模型的开发。

3:53:35 – Manhattan Project for AI

Nathan Lambert肯定了美国白宫的《AI行动计划》(America’s AI Action Plan),认为其是行政部门发布的“最连贯的政策文件”之一,并鼓励开放源代码和开放权重AI。他强调,联邦政府在设定议程方面发挥着重要作用,将开放权重作为优先考虑事项至关重要。

Sebastian Raschka补充说,开放源代码对于教育和培养下一代AI人才至关重要,否则,人才的培养将受限于少数封闭公司。

Nathan Lambert也指出,虽然可以宣传“中国AI与威权国家整合威胁世界”,但他更倾向于从“创新和科学”的角度来推动美国开放AI,因为这更符合他所希望实现的未来。他认为,完全禁止开放模型是不可能的,因为训练这些模型的成本对于全球许多想要施加影响力的人来说是可及的。阻止信息和工具的自由流动将导致互联网的重构,这是不可想象的。

Sebastian Raschka提出,中国的大型开放权重模型可能对美国公司来说是件好事。因为当这些公司看到DeepSeek-V3等开放模型在没有安全风险或负面影响的情况下被广泛使用时,可能会鼓励它们发布更好的开放模型。Nathan Lambert对此表示赞同。

关于未来AI模型是否都将是开源的,Nathan Lambert认为这取决于AI进步的轨迹。如果进步速度在几年内达到饱和,那么开放模型将通过优化变得更便宜、更高效,从而成为主流。他反驳了“AI2027报告”中关于AI系统越智能、国家安全担忧越大,从而导致实验室高度集中和保密的“曼哈顿计划”式预测。Sebastian Raschka也认为,在数字时代,知识无法被这样垄断。

4:00:10 – Future of NVIDIA, GPUs, and AI compute clusters

关于NVIDIA及其在GPU和AI计算集群领域的未来,Sebastian Raschka认为NVIDIA的优势不仅仅在于GPU芯片本身,更在于其长达二十年的CUDA生态系统。CUDA的兼容性和成熟度是其强大的护城河。尽管总有新玩家可能带来颠覆性创新,但大规模公司更倾向于选择成熟可靠的NVIDIA解决方案。他推测,AI工具的进步可能降低开发类似CUDA生态系统的难度。

Lex Fridman质疑未来训练和推理计算是否会分离。Nathan Lambert表示,Groq的收购以及NVIDIA的Vera Rubin芯片(专注于预填充,减少高带宽内存依赖)都指向这一趋势。NVIDIA的优势在于其平台的灵活性。只要AI进步速度快,NVIDIA就能继续领先。但如果进步停滞,定制化芯片将变得更具竞争力。

Nathan Lambert提到NVIDIA公司文化高度围绕黄仁勋(Jensen Huang)的领导力,这种“史蒂夫·乔布斯时代”般的专注和运营参与度是其持续创新的关键。

嘉宾们讨论了“历史上的伟人”观点。Nathan Lambert认为,像黄仁勋这样的个人能够加速和聚焦科技革命,但如果没有他们,这些想法最终也可能由其他人实现,只是时间可能会延迟(例如,GPU革命可能晚20年)。Sebastian Raschka认为,这些个人是“押注”的,有些成功,有些失败,但他们带来的“专注和热情”是关键。Lex Fridman反驳说,没有黄仁勋,深度学习革命可能延迟数十年,导致人类文明的焦点发生巨大转移。

4:08:15 – Future of human civilization

展望未来100年,嘉宾们讨论了哪些技术突破将被历史学家铭记。Sebastian Raschka认为,“计算”(computing)仍将是总括性的突破,而非AI本身,AI只是更好地利用了计算能力。这类似于摩尔定律的广义概念,即计算能力的持续增长。

Nathan Lambert补充说,互联网的连接性以及“计算与连接性的融合”也将是关键。他认为,未来的AI系统将高度依赖网络和信息的自由流动,形成“数据中心中的多个AGI”相互协作的模式。

关于神经网络是否会被记住,Sebastian Raschka认为它可能更多地被归类为一种高效的算法。它受到人类大脑的启发,但其数字实现与生物学层面差异巨大。

Nathan Lambert预测,在100年后,社会将因自动化而发生深刻变化。类比工业革命,引擎(相当于计算机)被记住,而纺织机、空调、冰箱等具体机器也被记住。“深度学习”这个词很可能被记住,而“Transformer”可能随着AI架构的演进而被取代。他好奇AI将带来怎样的“空调和冰箱”式的变革。

对未来世界的构想: * 机器人:Sebastian Raschka认为将有专门的机器人执行特定任务,可能兼具人形和非人形。 * 人机交互:手机和笔记本电脑可能被淘汰,脑机接口(BCI)可能是主流交互方式。但Nathan Lambert质疑人脑是否能处理非视觉的信息输入(例如直接“知道”邮件收件箱内容),并认为人们仍会随身携带某种物理计算设备以维护隐私。 * 社会结构:Nathan Lambert认为人类的“能动性”(agency)和“社区”(community)需求不会改变。他希望100年后社会财富能大规模普及,平均生活水平将发生巨大变化。 * AI的负面影响:Lex Fridman强调,AI导致的大规模失业将是人类的悲剧,社会在发展技术时绝不能忘记个体人类的痛苦。 * 信息过载与“垃圾信息”(slop):Nathan Lambert预测未来几年我们将“淹没在AI生成的垃圾信息中”,这可能会导致社会对实体商品、真实事件和人际互动的价值更加珍视。 * 真实性与信任:Sebastian Raschka和Nathan Lambert讨论了AI生成内容带来的“真实性”挑战。虽然可能通过水印和验证系统来区分,但最终将依赖于对特定信息来源的信任。

对未来的希望: Nathan Lambert相信人类会找到出路,因为人类天生擅长建立社区和解决问题。他认为AI带来巨大机遇,但也带来社会和政治挑战,需要更多人去理解和沟通,这比单纯构建技术更困难,但也可能实现。

Lex Fridman认为,AI提供了一面镜子,让人类有机会更好地理解自身(个体层面和文明层面),并回答“意识是什么”等重大哲学问题。Sebastian Raschka也认为,人类与AI的根本区别在于“意识”和“能动性”。AI只是一个工具,人类始终是掌舵者,这让他对AI“接管”人类的担忧较小。他甚至开玩笑说,在《终结者》式的战争中,人类会赢,并且可能会利用本地LLM来对抗机器。

最后,嘉宾们对彼此的贡献表示感谢,并强调了人类连接的价值。

20260113 - #489 – Paul Rosolie Uncontacted Tribes in the Amazon Jungle

2026-01-14 04:28:59

Lex Fridman 播客 #489 – Paul Rosolie:亚马逊雨林中的未接触部落 综述

Episode highlight (0:00)

本集播客的亮点片段聚焦于一次与亚马逊未接触部落(Mashco Piro)的紧张遭遇。Paul Rosolie 描述道,当时,所有人都在等待,因为随时可能有箭矢飞来。一位人类学家站在前线,尝试用“Wamole”(兄弟)一词进行沟通。突然,人们开始尖叫“Mashco!Mashco!”妇女们抱起孩子跑进茅屋,狗和鸡也陷入疯狂。Paul 描述了当时弥漫的恐惧氛围,他看到了部落成员手持七英尺长的弓箭走下河滩,弓着身子,指着他们,互相交流。他提到这些部落成员能够在一箭40米外射中树梢上的蜘蛛猴,并且能悄无声息地靠近。Paul 强调,为了理解这一切,他必须展示前所未见的录像,称之为“世界首发”。

Introduction (1:08)

本集是自然学家、探险家兼作家 Paul Rosolie 第三次做客 Lex Fridman 播客。Paul 将一生献给了保护亚马逊雨林和赞美自然世界之美的事业。他即将发行新书《丛林守护者》(Jungle Keeper),书中讲述了过去几年他在丛林中经历的惊险故事,其中包括最近一次与未接触部落的全面深入接触。Lex 强烈推荐这本书的纸质版和有声书版。

Lex Fridman 鼓励听众通过 junglekeepers.org 网站支持 Paul 及其团队保护丛林的任务,可以通过捐款、传播信息或参加 Paul 于1月22日在纽约举办的慈善晚会。Lex 认为亚马逊丛林是地球上最特殊、最美丽的地方之一,值得为之奋斗。

Lex 额外提及自己曾与 Paul 一同前往亚马逊雨林,那是一生难忘的冒险(播客第429集)。他还录制了许多零散的旅程素材,并希望能将其剪辑成一个连贯的视频,尽管整理和编辑这些素材非常困难。他表示希望未来能制作更多这种“vlog”风格的视频,以赞美 Paul 这样杰出的人以及旅途中遇到的普通人,并请求听众的耐心与支持。

Uncontacted tribes in the Amazon Jungle (3:59)

Lex Fridman 指出,自一年半前他和 Paul 在丛林中经历了一段艰难时期以来,Paul 的生活变得越来越紧张。Paul 及其组织“丛林守护者”(Jungle Keepers)已成功保护了超过13万英亩的雨林,目标是再保护20万英亩。这项工作面临极端危险,包括来自“可卡因黑手党”的贩毒集团、非法伐木者和淘金者,以及最近与一个未接触部落(Mashco Piro)的惊险遭遇。

Paul 的新书《丛林守护者》开篇就描写了2024年8月 Mashco Piro 部落战士杀死两名伐木工的事件。紧接着,Paul 披露自己在2024年10月也与该部落发生了戏剧性的接触。Lex 引用书中对一棵千年铁木(Shihuahuaco)的描写:这棵高达160英尺的巨树,在西班牙人抵达秘鲁之前就已开始生长。2024年8月,当它被伐倒时,产生的巨大震动和声响被未接触部落感知。

Paul 解释说,亚马逊流域可能仍有数千个未接触部落的氏族,他们选择与世隔绝,生活在亚马逊盆地仅存的原始区域。他强调,伐木工人不听当地人的警告,认为“野人”(Calatos)只是传说,他们有猎枪便可无惧。然而,这些部落仍过着游牧生活,使用七英尺长的竹尖箭,对传统医学有着我们未知的知识,并能精准射中40米外的蜘蛛猴。在伐木工使用电锯时,部落成员能悄无声息地接近,并用致命的箭矢攻击。

Lex 补充说,这些箭矢巨大,看起来更像长矛,竹尖经过火烤和磨砺后异常锋利。Paul 强调,尽管现代世界拥有飞机、手机等先进技术,但这些部落仍生活在“史前”时代。Lex 提到通过 Perplexity 搜索发现 Mashco Piro 部落缺乏所有现代技术,包括电力、金属、先进工具、基础设施,甚至不制作陶器。他们如同生活在数千年前的石器时代,甚至对水结冰或沸腾都一无所知。Lex 认为,当他们听到电锯声时,可能将其视为“恶魔般的破坏力量”,因为他们无法理解这种技术,并认为这是对他们家园的破坏。

Intense new encounter (11:45)

Paul 详细描述了2024年10月那次与未接触部落的遭遇。地点位于亚马逊雨林西部边缘的一条高支流,那里数百年来一直保持原始状态。20年前 Paul 初到该地区时,未接触部落的故事被视为神话,秘鲁政府官方立场甚至认为他们不存在。然而,Paul 遇到过被箭射伤的当地人,这使得这些故事有了令人不安的真实感。

随着“丛林守护者”组织保护了13万英亩的雨林,他们意外地成为了这些希望保持孤立的部落的守护者。2024年10月,远程的土著社区通过卫星电话向“丛林守护者”求助,称部落正在出现,不知如何应对。Paul 和他的核心团队(包括 JJ、Mohsin 和 Stephane)最初有些怀疑,但很快意识到事情的紧迫性,取消了所有会议,召集了曾在2019年被箭射中头部的资深护林员 Ignacio。Ignacio 证实了部落的出现,并同意在一夜之间带他们完成通常需要两天才能抵达的旅程。

他们连夜乘坐小船在恶劣天气中逆流而上,Paul 在船头用头灯指引方向,甚至依靠鳄鱼的眼睛反光辨别航向,最终在黎明时分抵达了目的地社区。社区里充满了恐惧,部落成员曾在前一天出现在河滩上。人类学家 Romel 试图通过语言隔阂用“Nomole”(兄弟)一词呼唤他们,请求他们放下武器。脚印显示部落成员当时藏在附近,听到他们的呼唤后迅速跑开。

第二天清晨,Ignacio 警告 Paul 部落即将出现,劝说他们留下。随后,部落成员尖叫着“Mashko!Mashko!”跑来,社区陷入恐慌。Paul 解释说,这些部落以暴力著称,这是一种生存策略,源于17-19世纪殖民者和橡胶大王的残酷压迫。Ignacio 曾被部落箭射中,也曾被困在警卫站,在炎热中面临死亡威胁。

当部落成员(约50名裸体男子,手持七英尺长弓)走下河滩时,Ignacio 立即将 Paul 拉到树后寻求掩护。Paul 感受到了巨大的恐惧,他们有26人,但被部落成员包围。他甚至开始思考如果跳入河中逃生该如何生存。Paul 强调,记录下这一事件是他们的职责。

部落成员带着恐惧和戒备靠近,人类学家 Romel 站在河边,试图沟通。他发现“Nomole”这个词在部落语言中意为“兄弟”,部落成员似乎也以“Namoles”自称。他们首先进行了和平尝试,Paul 团队用一艘装满芭蕉的独木舟作为供品。部落成员冲过来抢夺芭蕉,场面一度混乱。

在男人在河边谈判时,部落的妇女们悄无声息地出现在他们身后的农田里,掠夺木薯和香蕉树,形成了完全的包围圈。Paul 团队意识到自己处于危险之中,人数远少于对方,很容易被屠杀。部落成员问他们:“如何区分好人坏人?”因为对他们来说,所有外部世界的人都是一样的。他们对砍伐大树的行为表示愤怒,认为这在精神层面上是对他们家园的破坏。

Paul 团队又送了一船香蕉和绳子(部落成员很喜欢,一些人腰上缠着现代尼龙伞绳)。Romel 发现这个氏族是他从未接触过的,这表明这是一次真正的“首次接触”。部落成员通过拍手和喊叫来沟通,没有明显的等级制度。

Paul 展示的视频显示了部落战士最初的戒备和随时准备战斗的姿态,但随着蕉的送出,气氛逐渐缓和,一些人甚至露出了笑容。Ignacio 甚至与他们开起了玩笑,跳起了舞。Romel 甚至脱下了自己的衬衫和裤子送给部落成员。Paul 自己也被 Romel 要求上前,伸出双手,向部落成员展示自己并非威胁,部落成员则以歌声回应。

然而,和平仅是短暂的。第二天,社区的 George 在驾驶小船上河时,被约200名部落成员包围射箭。George 被一支七英尺长的箭矢从肩胛骨上方射入,从肚脐附近穿出,幸好被直升机疏散后奇迹般生还。Paul 团队不解为何部落在接受和平馈赠后却再次发动袭击,推测可能是被船只马达惊吓,采取了防御行动,或者是一次有预谋的突袭。部落成员脖子上戴着巴西坚果和动物牙齿制成的项链,可能是一种容器或图腾,他们对现代砍刀也表现出极大的兴趣,并曾为之进行突袭。

The mysteries of the jungle (48:07)

Paul 和 Lex 探讨了关于未接触部落的诸多未解之谜:他们的老年人在哪里?婚姻和生殖仪式如何进行?为什么被社区救助的部落儿童会忘记在部落的生活?Paul 认为这可能与部落对保密性的重视以及丛林生活的残酷性有关。丛林生活充满了饥饿、部落冲突、寄生虫,与我们现代文明的便利形成鲜明对比。

Paul 相信这些部落一定拥有复杂的信仰体系和创世故事。他提到,见到这些部落就像打开了一扇通往历史的窗户,让人思考我们从何而来,又走了多远。Paul 半开玩笑地说,部落成员可能已经把他(Lex)的形象刻在了木头上,当作他们神话中的人物。

“丛林守护者”组织目前保护着13万英亩的土地,他们意识到除了动植物,还必须保护这些独特的部落文化,避免他们被贩毒者杀害或被“嬉皮士”打扰。Paul 解释说,组织通过购买土地来阻止伐木者,因为如果土地被出售给伐木公司,部落成员将面临致命威胁,无论是现代武器还是疾病。

Paul 强调,他们的使命不仅仅是环境保护,更是对一个在未来几年内可能灭绝的人类文化的保护。如果部落能够保持隔离,他们就能继续以自己的方式生活,无论是几百年还是几千年。他认为这片流域具有全球历史意义,因为其命运将在未来18个月内决定。

Paul 承认环保任务可能令人望而生畏,但他们专注于一个30万英亩的流域,并已成功保护了13万英亩。他们将伐木工人转变为护林员,并得到全球数千名捐赠者的支持。这不仅是划定公园,更是为土著人民创造一个未来,让他们可以选择自己的生活方式,甚至成为护林员。Paul 也提到,少量生态旅游(如树屋项目)有助于资金筹集,并让人们亲身体验丛林之美。

Paul 感谢 Lex 及其播客带来的巨大支持,这使得“丛林守护者”的工作得以扩大,保护了更多的土地和物种。Lex 则赞扬 Paul 是世界上为数不多致力于此项事业的英雄之一,并再次呼吁听众捐款或分享 junglekeepers.org 的信息。Paul 强调,他们的成功离不开像 Stefan 这样高效的团队成员,他在后勤、系统运营和资金管理方面发挥着关键作用,将 Paul 的“丛林人”愿景变为现实。

Tribe’s diet: Monkeys, turtles, and turtle eggs (1:02:42)

Lex 问及未接触部落的饮食习惯。Paul 回答说,他们的主要食物来源包括猴子、海龟、海龟蛋以及小型猎物,如水豚和类似猎犬大小的啮齿动物(paka)。他们不怎么捕鱼。通过护林员在部落营地发现的动物骨骼,如貘骨头和龟壳(他们最接近“碗”的物品),可以推断出这些信息。Paul 提到他们曾将一个现代碗送给部落,但几天后发现它已被摧毁,表明部落对这类物品不感兴趣。

Paul 猜测部落成员必须用火烹饪肉类,因为潮湿的丛林中生火非常困难,而且需要杀死寄生虫。由于猴子、鸟类和蝙蝠会迅速吃掉成熟的果实,部落很难获得大量的浆果和水果。

Paul 分享了一个他在《神之母》(Mother of God)一书中提到的经历:他曾与一位名叫 Dira 的当地小女孩分享猴子肉午餐。尽管猴子肉的烹饪方式原始(直接在火上烤),看起来有些像小人类,Paul 承认他帮 Dira 用牙齿撕下猴子的耳朵,然后两人分享了猴头。Dira 表示她最喜欢的食物就是猴子。Lex 查阅资料显示,全球有数百万人,尤其在非洲、拉丁美洲和亚洲,定期或偶尔食用灵长类丛林肉。

Paul 依然在消化与未接触部落的遭遇,他觉得这像是“丛林的声音”在与他对话。他反思了人类对自然的依赖以及现代文明的巨大特权。与这些几乎零科技的部落互动,让他深刻体会到制作哪怕一个简单物品所需的巨大努力和时间。部落通过口头传统而非书面文字进行沟通,这让他对现代世界的沟通方式和科技进步感到惊奇。他认为这种视角能让人对我们所拥有的科技奇迹和自然世界的魔力有更深的感激。

Jane Goodall (1:12:18)

Lex 提到 Paul 在书中表达的乐观主义:尽管见证了许多破坏,但他遇到了许多致力于救赎人类罪恶的英雄,他们“在风暴中守护着火焰”,证明“希望仍在”。这与简·古道尔“对未来的最大危险是冷漠”的名言不谋而合。Lex 借此引出简·古道尔对 Paul 人生的重大影响。

Paul 回忆说,由于阅读障碍,小时候父母每晚都会给他朗读,其中就包括简·古道尔的书。他从小将简视为保护、冒险和历史的偶像。几年后,Paul 在纽约大学听了简的演讲,深受启发。当时,他已在丛林中生活了几年,正在尝试记录自己的故事。

在演讲结束后,Paul 鼓起勇气将自己两章手稿(关于巨食蚁兽 Lulu 和与 JJ 捕获森蚺的故事)交给简,请求她为自己“不存在的书”背书。尽管感觉很傻,但48小时后,简·古道尔回复说:“这太不可思议了。一旦你找到出版商,我很乐意为你的书写推荐。”

Paul 认为简此举如同挥动了她的“魔法棒”。尽管她忙碌且疲惫,却仍有惊人的同情心和专注力来审阅一个无名小子的作品。Paul 的书最初被所有纽约出版商拒绝,但有了简的推荐信,哈珀柯林斯出版社(HarperCollins)最终接纳了他,出版了《神之母》。这本书的成功进而催生了“丛林守护者”组织,以及他事业的一切后续发展。Paul 强调,如果不是简·古道尔的帮助,他的整个职业生涯,以及数千英亩亚马逊雨林的保护,都将不复存在。

Lex 指出,简的伟大在于她对每个人都抱有同样的信任和支持,并提醒 Paul,他现在也肩负着同样的责任去激励年轻人。Paul 表示,简的榜样深刻影响了他,让他学会停下来倾听那些寻求建议的年轻人,因为他们可能是未来的河流守护者或环保创新者。他强调,简·古道尔是“希望事业”的倡导者,认为不放弃希望是坚持斗争的关键。在当今这个充斥着冷漠和恐惧的时代,拥有信念、激情和希望是唯一的反击方式。

Advice for young people (1:18:30)

Lex 问 Paul 会给那些渴望追随他冒险之路的年轻人什么建议。Paul 说,他的收件箱里充满了来自世界各地年轻人的询问,核心建议是“一头扎进冒险之中,去做就行了”。他承认,当成功人士说“如果我能做到,你也能做到”时,这听起来有些空洞。但 Paul 认为自己正是这句话的活生生例证,因为他高中辍学,没有博士学位,也没有家庭资金,却成功保护了雨林、与动物共处、接触了部落。

Paul 强调,并没有一条清晰的道路可循。他最初去丛林只是出于热爱,默默付出了近十年才有所成就。他用餐厅的例子说明,你可能从洗碗工做起,但只要在那个环境中,就有机会学习、成长,最终开创自己的事业。他总结道:“你不能只是在电脑上搜索它。你必须去流汗,流血,然后去做。”

Lex 接着引用了 Paul 一篇关于旅途艰辛的社交媒体帖子,指出这条道路充满了痛苦和磨难。Paul 表达了他在面对森林被烧毁、动物死去的痛苦:“这不是大卫与歌利亚的故事。没有剑或弹弓能抵挡如此巨大的恶龙。你正在逆着全球经济熵和人类冷漠的潮流游泳。逆流而上令人疲惫,是溺水的好方法。我们每天不赢,就是在输,而当我们输的时候,世界就会燃烧。你知道得越多,它就越痛。火焰降临时,所有的心跳都停止了。物种的星系变成了幽灵,而我们是唯一拯救它们的人。”Paul 描述了这种沉重的责任感,以及面对“地狱般的寂静”时所感受到的病态。

Paul 承认,这份工作非常艰难,伴随着被寄生虫叮咬、感染登革热、吃猴子肉、船只抛锚等种种磨难。他曾一度陷入绝望,觉得自己只是一个“丛林彼得潘”,应该长大找份“正常”的工作。但幸运的是,“丛林守护者”的工作在过去几年中取得了成功,保护了13万英亩的雨林,让他重新燃起了希望,认为“我们也许真的能做到”。Paul 引用电影《300勇士》中列奥尼达王允许自己“片刻的希望”的场景,以及一位朋友的话:“如果以更艰难的方式发生,它会真的杀死你。如果以更容易的方式发生,它就不会如此神圣。”Paul 认为,尽管过程异常艰难,但他们正在取得成就,也许真的可以完成使命。

Cartel, Narco-traffickers & assassination attempts (1:27:44)

Paul 提到,除了伐木者和淘金者,现在更大的威胁是渗透到河流流域的贩毒集团,他们种植古柯叶制造可卡因,并修建简易机场。过去,Paul 和 JJ 能够与当地伐木者建立联系,甚至雇佣他们成为护林员,因为他们是“兄弟”,只是为了生计。然而,贩毒集团则完全不同。

2024年3月,Paul 和 JJ 在一次无人机侦察中,发现了一片大型新开垦地,并被从房屋中冲出的贩毒分子追逐。他们最初以为是伐木者,但很快意识到情况的严重性。幸运的是,他们遇到了一个与“丛林守护者”合作的警察营地。警察武装起来,戴上滑雪面罩,与他们一同调转船头。贩毒分子看到枪支后便撤退了。然而,就在 Paul 感谢警察救命之恩的几个小时后,那名警察在卸载船只时,被贩毒分子驾船“路过”射中胸部身亡。这起事件彻底改变了Paul 对当地威胁的看法,他称之为“成功蒙太奇中的枪声”。

此后,威胁级别迅速升级。贩毒集团利用雨林的偏远和无政府状态进行活动。Paul 在纽约与捐助者会面期间,JJ 的司机 Percy 在驾车回城时遭遇伏击。贩毒分子横树拦路,用枪指着 Percy 的头,询问 JJ 和“那个开无人机的白人傻瓜”(Paul)的下落。如果 Paul 或 JJ 当时在车上,他们很可能会被杀害。警方截获的 WhatsApp 聊天记录显示,贩毒集团对 Paul 和 JJ 发出了“格杀勿论”的悬赏。

Paul 坦言,这种被追杀的真实恐惧极大地影响了他。他每天都生活在对 JJ 安全的担忧中,睡觉时会梦到被枪击。他质疑自己和团队是否有能力应对这种军事级别的威胁。他指出,贩毒活动在偏远地区几乎不受惩罚,而“丛林守护者”帮助警方巡逻和打击犯罪的行为,被贩毒集团视为“斩草除根”。

Paul 提到,像 Chico Mendes 和 Dorothy Stang 这样的环保主义者每年在亚马逊地区被暗杀的案例不胜枚举。这些领导人通常是社区的支柱,他们的死亡往往能有效扼杀反抗运动。Paul 强调,虽然人们常认为拉美政府腐败,但他们合作的秘鲁政府官员真诚地希望保护公民。贩毒集团不仅从事毒品交易,还涉及人口贩卖,从土著社区劫持年轻女性。更令人担忧的是,有报告称贩毒集团已与未接触部落取得联系,他们不会使用箭矢,而是会用机枪屠杀这些部落。

Paul 展示了一张地图,显示了“丛林守护者”保护的13万英亩(浅绿色区域)如何被贩毒集团日益蔓延的道路网络包围。贩毒集团试图从北部突破,进入部落领地。Paul 曾通过社交媒体发布视频,号召人们捐款保护10万英亩土地,在48小时内筹集到15万美元,成功阻止了一条道路的推进。但贩毒集团总能找到新的路径。Paul 称这就像一场“不可能完成的任务”,他们需要持续的资金来支持护林员巡逻。如果他们能够获得2000万美元,就能永久保护剩余的走廊,将整个区域变为国家公园,彻底解决问题。

Paul 解释了贩毒集团的“巧妙”策略:他们资助最贫困的人在丛林中开垦农田,然后胁迫这些“农民”为他们提供安全屋,种植古柯。他们修建的简易机场隐藏在150-160英尺高的雨林冠层之下,树冠在上方合拢,使得卫星和飞机难以发现。经验丰富的丛林飞行员可以低空穿梭,在冠层下起降。为了对抗这种隐蔽性,Paul 团队正在与拥有先进无人机技术(如16英尺长的太阳能滑翔无人机,可飞行两周并提供实时图像)的人合作,以监测冠层下的异常。然而,即使探测到,将警察送往需要两天船程的偏远地区执行任务依然面临巨大挑战。全球可卡因市场庞大(约2500万用户),这股力量由巨额资金和残暴手段驱动。

Climbing the giant tree (1:49:44)

Paul 分享了他在《丛林守护者》一书中描述的攀爬巨树的经历,那是一棵高达160英尺的铁木(Shihuahuaco),树基比一个房间还大,他曾认为无法攀登。作为一名攀岩者,Paul 经过长时间训练,最终在凌晨四点与 JJ 一起开始攀爬。这是一项纯粹的力量挑战,他赤膊赤脚,仅靠绳索和背部力量攀爬一根巨大的藤蔓,向上攀登70英尺才能到达第一根树枝。每隔30英尺,他会设置一个保护点,如果坠落,可能会摔下60英尺并撞到树干。攀爬过程中还面临蜂巢和毒蛇的威胁。

经过一个多小时的全力攀爬,Paul 终于到达了树枝,每根树枝都像成熟的橡树一样粗壮。他继续向上爬到120英尺高,此时 JJ 在下方只是一个小小的光点。在黎明前夕,当 Paul 爬到树冠时,猴子的叫声和金刚鹦鹉的鸣叫声开始响彻丛林。太阳从东方升起,第一缕阳光照射到树冠上,升起了“迷雾之河”——亚马逊上方被湿气环绕的“隐形河流”。Paul 曾听过关于这条河流的传说,现在亲眼看到它在金色晨光中流过树冠,金刚鹦鹉和猴子在他下方活动。这是一个让他泪流满面、感觉“看到了上帝”的深刻瞬间。他感到自己冒着生命危险,却得到了树的馈赠,体验到了“亚马逊的生命和呼吸”。

Lex 赞扬了 Paul 卓越的写作才华,能够将这样的经历生动地传达出来。两人还谈到了金刚鹦鹉。Paul 曾每天清晨研究金刚鹦鹉,发现它们虽然叫声刺耳,但彼此间有着深厚的感情,通过不同的叫声表达爱意或呼唤同伴。他观察到金刚鹦鹉是一夫一妻制,它们在千年铁木的树洞中筑巢繁衍。由于合适的筑巢地点有限,每年只有17%到20%的金刚鹦鹉能成功繁殖。金刚鹦鹉是生态旅游的重要组成部分,它们在丛林中飞翔的景象令人联想到“恐龙时代”。

Giant anaconda (2:00:42)

Paul 分享了他 Instagram 上一张巨大的森蚺缠绕在他脖子上的照片,并解释了其中的危险。他提到,他们团队一直在研究低地绿森蚺(Eunectes murinus),这是地球上最大、最重的蛇。照片中的森蚺名叫 Millie,体长近20英尺(约19英尺多),当时正在蜕皮,罕见地长着一双蓝眼睛。她的头部比大丹犬还大,力量惊人,能轻易掀翻10个人。当他们试图将其抬起测量时,Millie 只需一个身体的扭动就能将多人甩开。Paul 强调,一旦森蚺咬住并开始缠绕,便会迅速将猎物勒死。

Paul 引用了一位网友的评论,该评论认为森蚺是伏击型捕食者,被接近时通常会选择逃跑,不会将人类视为食物;而 Paul 的冷静也让蛇保持平静。Paul 同意这种说法,指出像 Millie 这样巨大的森蚺是顶级掠食者,通常更想被放走,而非攻击。它们的弯曲牙齿使得咬合后难以脱离,因此它们不愿轻易咬人。Paul 曾捕捉过90多条森蚺,其中很多体型庞大,但它们都选择了逃跑而非战斗。只有幼蛇和小型雄蛇才会变得好斗。Paul 强调,这次与 Millie 的互动并非他独自完成,而是有团队协作。他坦言,如果夜间独自一人在丛林中进行这种操作,无异于自杀,因为一旦被缠住,如果没有 JJ 这样的人帮忙解开,必死无疑。

Lex 质疑 Paul 是否仍会独自冒险,Paul 则坚持在这种情况下独自行动是致命的。他以大象为例,说明在充分了解动物习性并保持尊重时可以安全接近,但森蚺则不同,一旦被其缠绕,身体就会被挤压成“一团浆糊”。

Paul 还回顾了 Santiago 在《神之母》中讲述的“长角森蚺”故事。Paul 最初对此表示怀疑,但根据他20年来与土著居民打交道的经验,土著居民的说法往往有其道理。他分享了自己亲身经历的“绿刺蛇”故事:一名护林员声称看到一条全身长着绿刺的蛇,Paul 最初不信,直到亲眼看到,才发现那是一条生活在死水中的水蛇,身上长满了藻类,静止时看起来确实像长着刺。这个故事再次印证了土著居民观察的准确性。

Paul 认为“漂浮森林”是一个独特的、孤立的生态系统,可能存在着许多未知的奇特生物,甚至一些无法识别的蜥蜴。他曾带水文学家去那里,连科学家都对它的形成方式感到困惑。他认为那里的巨大森蚺是真正超然的顶级捕食者,它们的力量和体型让他敬畏。Paul 强调野生森蚺的肌肉像“钢索”一样,与圈养的蛇完全不同。他认为自己对蛇的了解和“蛇语”让他能够在一定程度上避免危险,但他认为蛇与人之间并无“友情”,更多是基于对危险的敏感和本能。

Dangerous animal encounters (2:24:04)

Paul 探讨了丛林中动物带来的危险。他指出,最大的威胁往往不是大型掠食者,而是“小家伙们”——例如马蜂窝。在丛林中,一不小心碰到马蜂窝,可能会导致过敏性休克并瞬间致命,因为在茂密的植被中很难逃脱,还会被藤蔓缠住,被带刺的树木刮伤,加剧感染风险。他表示,亚马逊地区的虎猫通常不会主动攻击人类,蚊子才是真正的威胁。即使是毒蛇,也更愿意被独自留下。他曾抓住一条11英尺长的毒蛇尾巴,蛇竖起身体,仿佛在警告他“别逼我出手”。他“听懂”了蛇的警告,便放下了尾巴。

Paul 讲述了一次在印度发生的真正危险的动物遭遇。他在一条小溪边试图观察大象,却意外地与一头曾被人类骚扰的雄性大象正面相遇。这头大象被激怒后,主动攻击 Paul,而不是虚张声势。Paul 扔下背包,在树林中曲折逃跑,大象则撞倒树木追赶。Paul 最终跳下悬崖,滚入溪流才得以逃脱。大象追到悬崖边,甚至捡起一根树枝朝他扔来。Paul 称这次经历让他深刻体会到大象的力量和愤怒,以及它们的不可预测性。

Lex 和 Paul 简短讨论了恐龙世界,Paul 特别提到了他对 T-Rex 和剑龙在书籍中常被描绘成生活在一起,但实际上相隔遥远的事实感到“心碎”。Paul 表示希望未来能带 Lex 前往非洲丛林观察真正的野生大象,或者在亚马逊受保护区域进行一次轻松的船只旅行,感受动物对人类完全没有恐惧的原始状态。他强调,河流是他所有故事的“主线”,连接着整个亚马逊的生命。

Writing, journaling, and great writer inspirations (2:34:12)

Lex 赞扬 Paul 是位出色的作家,并询问他的写作过程。Paul 回答说,他每天都会写日记,这有助于他记录生活、追踪希望与梦想,并记住那些转瞬即逝的平凡瞬间(比如和母亲在厨房做饭,或者与狗散步)。他的房间里堆满了笔记本,每当发生值得记录的事情,无论是故事还是发现一片已灭绝树种的叶子,他都会写下来或描摹下来。这种习惯确保他能保留记忆和素材。他相信,如果不写日记,就会错过留住生活和回忆的机会。

Paul 不像斯蒂芬·金那样每天设定页数目标,他是在受到强烈启发时才写作。他会先在纸上勾勒出故事的轮廓,然后闭上眼睛,用笔将故事完整地写出来,这个过程就像“雕刻”作品。之后再进行多次修改和润色,他坦言“这就是写作最糟糕的部分”。为了避免在丛林中生活和工作的同时还要面对繁重的编辑任务,Paul 现在采取了一种新方法:每当发生惊人事件,他就将其写成一章,编辑好后交给他的专业编辑姐姐审阅,然后将这些完成的章节搁置起来,等到想写新书时,就有了现成的素材,避免从零开始。

Paul 透露,他正在撰写第三本书《残局》(Endgame),讲述他与 JJ 深入亚马逊河流更偏远、更无法无天的地区探险的经历。在那个充满石油公司、传教士和最近才接触外界的纳华部落(Nahua people)的地区,他们目睹了残酷的暴力和无政府状态。JJ 甚至对 Paul 说“我们不安全”,因为当地人似乎在评估他们身上的财物价值。Paul 提到了当地人向 JJ 询问金钱,最终导致 JJ 被数十名手持弓箭的纳华部落成员追赶的趣事。他还提到一个关于“海豚性爱者之河”的传闻,当地人不断警告他不要招惹河里的海豚,这让他学会了相信土著居民的口头传说。

在写作风格上,Lex 认为 Paul 的作品有时带有科马克·麦卡锡式的黑暗风格。Paul 承认自己确实会跳跃式地运用不同风格,有时喜欢华丽的辞藻和比喻,但发现现代读者更喜欢安东尼·波登那种直白叙事风格。他也喜欢海明威那种简洁有力、留白深远的写作方式。

Paul 和 Lex 还讨论了大型语言模型(LLMs)和人工智能。Paul 发现自己能“惊人准确地”辨别出经过 ChatGPT 生成的信息,尽管图像已很难分辨。他认为,人工智能生成语言的能力非常出色,但缺少了某种难以言喻的“人性”,这反而会让人类创作的艺术和文学变得更加珍贵。Lex 认为,随着AI的普及,人们会越来越重视面对面的真实互动和艺术的真实性。Paul 认为现代电影过于“精雕细琢”,缺乏“凌乱、真实和冒险”的元素。他怀念过去那些敢于冒险、真实深刻的电影。Paul 引用电影《死亡诗社》中罗宾·威廉姆斯让学生撕掉书页,呼唤真实情感的场景,认为这与他们讨论的观点不谋而合。

Paul 提到了简·古道尔的另一句话:“你无法意识到你每天所做的事情有多重要。”他鼓励人们在日常生活中投入额外的“魔法”,创造惊喜和快乐。

Paul 还特别感谢了 Dax(Lex 的朋友),Dax 在 Paul 人生最低谷(离婚、COVID 疫情、保护工作受挫)时,给了“丛林守护者”十年期的资金承诺,这不仅仅是金钱上的帮助,更是对 Paul 信仰的肯定。Dax 建立了“联盟时代”(Age of Union)组织,利用自己的财富和资源支持亚马逊雨林、海龟、猩猩等各种环保项目。他亲自前往各地考察项目,确保资金得到有效利用。Paul 形容 Dax 在他人生中扮演的角色就像电影中“千钧一发之际破门而入的救星”。

最后,Paul 再次提到了野生动物摄影师 Dan。Dan 受到 Paul 播客的启发,主动参与到 Paul 的工作中,展现出非凡的摄影才能和耐心,捕捉到许多令人惊叹的丛林瞬间。Paul 认为“丛林守护者”已经成为一个拥有活力和清晰使命的团队,吸引了许多优秀的人才。

展望未来,Paul 希望在未来一年半内保护好这条河流。他梦想在完成这项任务后,能有自己的孩子,攻读博士学位,成为一名教授,教授世界各地的环保主义者如何保护野生之地。他希望能够从“血钻”式的危险生活中抽身,转变为更像“印第安纳·琼斯”那样的探险家兼学者。Lex 感谢 Paul 为使命所付出的一切,并希望他能在保护雨林的过程中安然无恙。Paul 则再次感谢 Lex 的播客为他们的使命带来了巨大的支持和希望。

20251231 - #488 – Infinity, Paradoxes that Broke Mathematics, Gödel Incompleteness & the Multiverse – Joel D

2026-01-01 05:44:03

Introduction

本集访谈嘉宾为乔尔·大卫·哈姆金斯(Joel David Hamkins),一位专注于集合论、数学基础和无限性质的数学家和哲学家。他在MathOverflow(一个面向研究数学家的StackOverflow类平台)上是排名第一的用户,并著有多本书,包括《Proof in The Art of Mathematics》和《Lectures on the Philosophy of Mathematics》。本期播客将深入探讨现代数学的基础,以及关于无限、实在本质、真理和挑战20世纪最伟大思想家的数学悖论等令人费解的观点。Lex Fridman在开篇感谢了听众的支持,并介绍了本次对话的核心议题。

Infinity & paradoxes (无限与悖论)

Lex Fridman提及19世纪末康托尔(Cantor)提出的“有些无限比其他无限更大”的观念,这一思想在重建数学之前曾“打破”了数学。这一发现具有深远的影响:首先,它引发了一场神学危机,因为无限常与上帝联系,多个无限的存在令人费解,康托尔本人也深信宗教;其次,它导致了数学界的“内战”,德国著名数学家克罗内克(Kronecker)称康托尔为“青年腐蚀者”并试图阻碍其职业生涯;第三,由此引发了许多引人入胜的悖论,如罗素悖论,威胁到所有数学的自洽性;最后,康托尔本人也因此精神崩溃,在精神病院度过晚年,痴迷于证明连续统假设。

哈姆金斯教授追溯了无限概念的历史,指出早在古希腊时期,亚里士多德就强调无限的“潜能”而非“实际”存在。伽利略是少数的例外,他在《关于两种新科学的对话》中预见了康托尔的部分思想,但最终陷入困惑。伽利略悖论指出,自然数(如1, 2, 3...)与它们的平方数(如1, 4, 9...)可以建立一一对应,这意味着它们的数量相同,但这与“整体大于部分”的直觉相悖。类似的例子还有不同长度线段和同心圆上的点。

哈姆金斯解释说,现代数学对这一情况的理解是,这些无限是等势的。他引入了“康托尔-休谟原则”(Cantor-Hume principle),即如果两个集合之间存在一一对应,则它们的大小相同。这与欧几里得的“整体大于部分”原则产生了冲突。康托尔最终解决了这一矛盾,他明确地展示了不同大小的无限,并通过不可数性证明了实数集合比自然数集合“更大”。

为了说明可数无限,哈姆金斯借用“希尔伯特旅馆”(Hilbert’s Hotel)的比喻: * 一个无限房间的旅馆已满,但来了一个新客人。经理让所有住客都搬到下一个房间(N号房的客人搬到N+1号房),这样0号房就空了出来给新客人。这表明,对于可数无限集合,增加一个元素并不会使其“变大”。 * 如果来了20个客人,可以让他们都搬到N+20号房,腾出20个房间。 * 如果来了无限多(可数无限)的客人,比如一辆希尔伯特大巴,载有无限多座位的客人。经理可以让所有现有客人搬到房间号翻倍(2N)的房间,这样所有奇数房间都空出来给大巴上的客人。这表明两个可数无限集合的并集仍然是可数无限。 * 更进一步,如果来了希尔伯特火车,有无限多节车厢,每节车厢有无限多座位(即无限多个可数无限集合)。哈姆金斯利用素数分解(3^C * 5^S,C为车厢号,S为座位号)来为每个乘客分配一个唯一的奇数房间。这证明了可数无限个可数无限集合的并集仍然是可数无限的。

这些例子都强有力地违反了欧几里得的“整体大于部分”原则,展现了可数无限的独特性质。哈姆金斯还提到,整数格点(pairs of natural numbers)也可以通过“对角线路径”(winding path)来证明是可数无限的,这提供了一个更直观的几何解释。

接下来,哈姆金斯讨论了无理数。有理数(分数P/Q)可以通过类似希尔伯特火车的方法证明是可数无限的,因为它们可以表示为两个整数的对。然而,实数集合并非可数无限。实数包括有理数、代数数(如√2)和超越数(如π,e)。康托尔的伟大成就正是证明了实数集合是不可数无限的,比自然数集合严格更大,从而确立了存在不同大小的无限。

哈姆金斯通过一个反证法解释了康托尔的对角线论证(Cantor’s diagonal argument): 1. 假设所有实数(例如0到1之间的实数)可以被列成一个可数列表R1, R2, R3...。 2. 构造一个新的实数Z,其小数点后的第N位与列表中第N个实数R_N的小数点后第N位不同。为了避免0.999...=1.000...这样的歧义,康托尔确保Z的每一位都不使用0或9。 3. 通过这种构造,实数Z与列表中任何一个R_N都不同,因为它至少在第N位上与R_N不同。 4. 这与“所有实数都在列表上”的假设矛盾。 5. 因此,实数集合不可数,它是一个严格更大的无限。

这个对角线论证是一种极其富有成效的证明方法,被广泛应用于数学逻辑中的许多重要成果,包括罗素悖论、停机问题和递归定理。

Russell’s paradox (罗素悖论)

康托尔的对角线论证不仅证明了实数的不可数性,还提出了一个更普遍的事实:任何集合的幂集(包含其所有子集的集合)都比原集合严格更大。哈姆金斯以“委员会”的比喻来解释这一普遍性:对于任何人群,可能组成的委员会数量总是多于人数。假设委员会可以与人一一对应,那么可以构造一个“对角线委员会”D,其中包含所有未被以自己名字命名的委员会的成员。但这个D委员会本身必须以某个人的名字命名,比如达妮埃拉。如果达妮埃拉是D的成员,那么根据D的定义她就不应该是;如果她不是D的成员,那么她就应该是。这导致了矛盾。

同样的逻辑也体现在罗素悖论中。罗素悖论指出,所有“不包含自身的集合”的集合不能构成一个集合。如果存在这样一个集合,那么它包含自身当且仅当它不包含自身,这同样是一个矛盾。哈姆金斯称之为“罗素定理:不存在全集(universal set)”。

罗素悖论在当时对弗雷格(Frege)的逻辑主义(logicism)计划造成了毁灭性打击。弗雷格试图将所有数学归结为逻辑,他的基本原则允许对任何性质构造一个集合。罗素的信件揭示了这一原则会导致矛盾,使弗雷格花费数年心血的巨著在出版前夕土崩瓦解。哈姆金斯认为,尽管逻辑主义项目遭遇挫折,但集合论作为数学基础的兴起,尤其ZFC公理系统,可以被视为逻辑主义的一种成功实现,因为它将数学建立在具有逻辑特征的抽象集合形成原则之上。

Gödel’s incompleteness theorems (哥德尔不完备定理)

哈姆金斯将哥德尔不完备定理视为数学逻辑学的诞生。他首先介绍了希尔伯特纲领(Hilbert’s program)的背景:在罗素悖论等矛盾出现后,希尔伯特希望建立一个强大且值得信赖的数学基础(如集合论),既能回答所有问题,又能通过“纯粹有限主义”(purely finitistic)的方法证明其无矛盾性。希尔伯特坚信“我们必须知道,我们必将知道”(Wir müssen wissen, wir werden wissen)。

希尔伯特纲领的第一个目标是建立一个能够回答所有问题的“强理论”(strong theory),他可能设想集合论能做到这一点。第二个目标是用“弱算术理论”(purely finitistic theory)证明这个强理论的“安全性”(consistent,即无矛盾)。这种方法将证明视为一种形式化游戏,脱离了数学断言的意义,只关注符号的有限序列及其操作规则。一个证明被看作是符合逻辑推理规则的有限语句序列。哈姆金斯以皮亚诺算术(Peano arithmetic)为例,解释了有限算术理论,它能够形式化几乎所有经典的有限数论。

哈姆金斯指出,哥德尔不完备定理对希尔伯特纲领的两大目标都构成了决定性的驳斥: 1. 第一不完备定理:任何足够强大且可计算公理化的理论(包含一定量算术的理论),如果它是一致的,那么它必然是不完备的,即存在该理论既不能证明也不能证伪的真命题(独立命题)。这意味着我们无法写下一个能够回答所有数学问题的理论。 2. 第二不完备定理:任何足够强大且可计算公理化的理论,如果它是一致的,则它无法证明自身的无矛盾性。这意味着我们无法用自身理论的有限方法来保证其安全性。

这些结果揭示了数学现实的本质,即数学真理存在固有的不确定性和不可知性。哈姆金斯认为这并非“创伤”,而是对数学现实的深刻理解,激励数学家探索新的方向。他进一步指出,如果一个理论能够证明自身的无矛盾性,这本身并不能作为其可靠性的有效论据,因为一个不一致的理论也可以(谬误地)证明自身的无矛盾性。

关于“理论”(theory)这个词,在数学逻辑中它是一个技术术语,指形式语言中任何语句集合。它通常包含一组公理及其所有逻辑推论。哈姆金斯解释了“可计算公理列表”与“理论的所有推论”之间的区别:虽然我们可以系统地枚举一个可计算公理集合的所有推论(半可判定),但无法通过计算程序来判断一个给定语句是否是该理论的推论(不可判定),除非它恰好是肯定的推论。这与图灵的停机问题密切相关。

Truth vs proof (真理与证明)

哈姆金斯强调了“真理”(truth)与“证明”(proof)之间核心而根本的区别,认为这是哥德尔之后数学逻辑理解的关键。他指出,在哥德尔和塔斯基(Tarski)之前,人们对这两个概念的区分往往是模糊的。

  • 真理:属于“语义学”范畴,与数学现实的本质相关。它意味着一个陈述在特定的数学结构(如实数域、群或图)中是否为真。塔斯基的“去引号真理理论”(disquotational theory of truth)提供了一个形式化的真理定义:一个句子“雪是白的”为真当且仅当雪是白的。这通过归纳定义了形式语言中任何断言在数学结构中的真值。真理的判断需要明确指明其所作用的结构。
  • 证明:属于“句法学”范畴,是数学推理的本质。在希尔伯特的观点中,证明是形式语言中一系列符合特定逻辑规则(如肯定前件式Modus Ponens)的句子排列。证明系统通常具备以下特性:
    • 可靠性(Soundness):如果论证的前提在某个结构中为真,并且存在一个证明得出结论,那么结论在该结构中也为真。即证明能够保持真理。
    • 完备性(Completeness):如果一个语句是其他语句的逻辑推论(即当前提为真时结论必然为真),那么就存在一个证明。
    • 可计算可判定性(Computably decidable):一个给定序列是否是证明,应该是可计算判定的。

哥德尔的不完备定理揭示了真理与证明之间的张力:我们无法写下一个可计算公理化的理论,使得它能够完全且只证明关于算术标准模型的所有真命题。换句话说,如果一个理论是一致的,那么它总是存在独立命题,这些命题在数学现实中可能为真,但无法在该理论内部被证明或反驳。哈姆金斯认为这并非“创伤”,而是对数学现实的深刻洞察。它意味着我们不能总是通过机械的证明过程来回答所有数学问题,这正是“可判定问题”(Entscheidungsproblem)的核心,图灵的工作表明其是不可判定的,且等价于停机问题。

The Halting Problem (停机问题)

停机问题(Halting Problem)描述了计算过程的一个基本特性:给定一个程序(及其输入),判断它是否会在某个时刻完成任务并停止运行(“停机”)。哈姆金斯解释,停机问题是指是否存在一个通用计算过程,能够正确回答所有程序的停机问题。答案是“否”,停机问题是不可计算判定的(computably undecidable)。

要理解这一点: * 如果一个程序确实停机,我们可以运行它,当它停机时,我们就能确定答案是“是”。 * 但如果一个程序迟迟不停机,我们无法确定它是否会永远运行下去。即使运行了千年,也可能在千年零一年后停机。因此,我们无法总是在有限时间内得出“否”的结论。

哈姆金斯用一个反证法(对角线论证的变体)来证明停机问题的不可判定性: 1. 假设存在一个停机判定程序H,它能对任何程序P和输入I,判断P在I上是否停机。 2. 构造一个新程序Q,以任何程序P作为输入。 3. 程序Q调用H来判断“程序P在以P自身作为输入时是否停机?” 4. 如果H的回答是“是”(P在P上停机),则Q进入无限循环(即Q不停止)。 5. 如果H的回答是“否”(P在P上不停机),则Q立即停止(即Q停止)。 6. 现在,考虑Q在以Q自身作为输入时会发生什么? * 如果Q在Q上停机,那么根据Q的定义,它会进入无限循环(即Q不停机)。矛盾! * 如果Q在Q上不停机,那么根据Q的定义,它会立即停止(即Q停机)。矛盾! 7. 因此,假设H存在会导致矛盾,所以H不可能存在,停机问题不可计算判定。

哈姆金斯指出,这个证明与罗素悖论和康托尔对角线论证遵循相同的逻辑,并且他认为这是证明哥德尔第一不完备定理最简单的方法:如果存在一个完整的、可计算公理化的初等数学理论,那么就可以利用其定理枚举设备来解决停机问题,但这与停机问题的不可判定性相矛盾。因此,这样的完整理论不可能存在。

Truth vs proof (proof writing) (真理与证明 - 证明写作)

Lex Fridman提到了哈姆金斯关于证明艺术的著作。哈姆金斯解释说,这本书是为那些从微积分过渡到更高阶数学,学习如何撰写证明的学生而写的。他认为市面上的大多数证明写作书籍过于枯燥,只关注机械化的程序(如证明蕴涵式时假设前提并推导结论)。他希望创作一本更有趣、包含精彩定理(具有初等证明且展示不同证明风格)的书。

他举了一个“被指向的人比指向别人的人多”的离散数学问题作为例子: * 假设一群人围成一圈,每个人可以指向其他人(或自己)。每个人被指向的次数都多于他指向别人的次数。 * 反证法:每个人都把自己指向的人都给一美元。如果每个人被指向的次数都多于他指向别人的次数,那么每个人都会赚钱。 * 但这显然不可能,因为总的钱是守恒的,无法通过内部交易让所有人都赚钱。因此,这种指向模式不可能存在。 * 这个证明利用了“拟人化”(anthropomorphize)的思考方式,将数学概念转化为我们熟悉的现实情境(如金钱交易),从而使问题更容易理解和解决。

哈姆金斯指出,这个“金钱悖论”在有限人数下成立,但在无限人数下则不成立。如果有一群可数无限的朋友,每个人只有一美元,通过巧妙地安排相互给钱的方式,最终每个人都可以拥有无限多美元(在基数意义上)。这再次说明了无限与有限世界直觉的差异。

Does infinity exist? (无限是否存在?)

哈姆金斯认为“无限是否存在”与“数字5是否存在”的问题本质上相似,都属于数学本体论(mathematical ontology)的核心问题。他对此持实在论(realism)立场,认为抽象对象具有真正的存在。

他挑战了将数学存在还原为物理存在的尝试,认为我们对物理存在的本质理解反而更模糊和神秘。他举例说,即使对一个详细描述的蒸汽机车,我们也很难解释其“物理存在”与“想象中的存在”的区别。随着物理学的发展(从牛顿力学到量子力学),我们对物理客体的理解变得越来越抽象和神秘(例如波函数),而非更加清晰。相反,他对抽象存在的理解则更为清晰,例如空集(empty set)的性质。

哈姆金斯认为,我们对物理世界的理解更多是“体验”,而非“理解”。他相信数学现实和抽象存在的理解比物理现实更深刻、更令人信服。

他接着介绍了结构主义(structuralism)的哲学立场:数学对象的本质不在于它们由什么构成,而在于它们在数学结构中的功能。重要的不是“数字4究竟是什么”,而是它在自然数系统中的性质和与其他数字的关系。如果一个数学结构(如自然数系)有一个同构副本(使用不同个体充当元素),那么这个副本在数学上是等价的,没有重要的区别。结构主义是反本质主义的(anti-essentialist)。

这引出了弗雷格提出的“尤利乌斯·凯撒问题”(Julius Caesar problem):康托尔-休谟原则可以定义两个数字何时相等,但无法说明什么东西是数字(例如,尤利乌斯·凯撒是否是数字?)。结构主义者认为,这个问题对数学而言是无关紧要的,因为如果尤利乌斯·凯撒能在某个同构系统里扮演数字17的角色,那么在结构上就没有数学上的差异。

总而言之,哈姆金斯认为数学柏拉图领域(Platonic realm)的现实性,虽然可能不是“更真实”,但我们对其现实性的理解却更加深刻和令人信服。他预测数学领域的进步将继续,千年后的数学可能会完全无法辨认,但这种进步是真实的。

MathOverflow

哈姆金斯是MathOverflow的传奇人物,以246,000+的声望点排名第一。他将MathOverflow称为他人生中的一大乐趣,从中受益匪浅。他表示,自己被任何“有趣”的问题所吸引,并不局限于集合论领域。

早年,作为逻辑学家中少数活跃在MathOverflow上的,他发现许多其他数学分支(如群论、分析)的问题都有逻辑学方面的联系。为了回答这些“逻辑邻近”的问题,他不得不学习这些其他学科的足够知识,这极大地促进了他作为数学家的成长。他列举了一些他回答过的问题,例如ZFC独立的合理命题、公理选择最反直觉的应用等,其中也包括了关于无限棋盘的问题,这后来启发了他自己的研究。

The Continuum Hypothesis (连续统假设)

连续统假设(Continuum Hypothesis, CH)是康托尔在证明了存在比自然数集合更大的实数集合之后,自然而然产生的问题:是否存在介于自然数(可数无限)和实数(不可数无限)之间的无限大小?康托尔毕生都在思考这个问题。CH断言这样的无限不存在。

在康托尔的时代,所有已知的实数子集要么是可数无限,要么与整个实数线等势,从未发现严格介于两者之间的集合。康托尔为此开发了一套证明程序,试图逐步证明CH对越来越复杂的集合(开放集、封闭集、Borel集、投影集)成立。他为此发明了序数(ordinals),并利用康托尔-本迪克森定理证明了CH对封闭集成立。后来的研究在大型基数(large cardinal axioms)假设下,将CH对更复杂的投影集成立的范围推向更高层级。这在一定程度上实现了康托尔的愿景。

然而,CH最终被证明独立于ZFC公理。在20世纪初,CH是希尔伯特23个问题中的第一个问题,凸显了其在数学基础中的重要性。希尔伯特之所以将其列为第一,是因为他受到康托尔的影响,认为CH对集合论作为统一数学基础至关重要。集合论的出现解决了不同数学分支(代数、分析、拓扑、几何等)之间定理互借时缺乏统一基础的问题。

关于CH的独立性证明,历史进程如下: * 1938年:库尔特·哥德尔(Kurt Gödel)证明了ZFC加上连续统假设(CH)是一致的,如果ZFC本身是一致的。他通过构造一个被称为“可构造宇宙L”(Gödel’s L, constructible universe)的替代数学现实来完成,在这个宇宙中,选择公理和CH都为真。这表明CH不能被ZFC证伪。 * 1963年:保罗·科恩(Paul Cohen)发明了“强制法”(forcing),证明了如果ZFC是一致的,那么ZFC加上CH的否定(¬CH)也是一致的。他展示了如何通过强制法,从一个集合论模型构造出另一个CH为假的集合论模型。这表明CH也不能被ZFC证明。

这两个结果结合起来,确立了CH在ZFC中的独立性。这意味着ZFC既不能证明CH,也不能证伪CH。哈姆金斯认为这并非挫折,而是揭示了数学现实中的“裂缝”,发现了一个“本质问题”,值得庆祝。即使强大的大型基数公理也无法解决CH的独立性问题。

Hardest problems in mathematics (数学中最困难的问题)

哈姆金斯回顾了希尔伯特的23个问题,强调了其对20世纪数学研究的深远影响。除了连续统假设(CH),希尔伯特第十问题也与逻辑相关:要求提供一个算法,以判定一个给定的丢番图方程(多变量多项式方程)是否有整数解。这个问题最终被证明是不可判定的,即不存在这样的算法,这与停机问题类似。

哈姆金斯认为,独立性结果让他感到欣慰,因为它揭示了数学现实的复杂性。他解释说,哥德尔第二不完备定理的直接推论是,任何一个理论都存在一个由其自身无法证明其一致性的更高一致性强度的公理塔。而大型基数公理(large cardinal axioms)正是这种无限高塔的实际体现,它们断言了更大无限的存在,并且这些公理的加入能够解决ZFC中的许多独立问题,但CH仍然独立于所有已知的大型基数公理。

Mathematical multiverse (数学多重宇宙)

科恩和哥德尔的工作揭示了CH的独立性,以及选择公理的独立性,甚至数千个关于无限组合学的非平凡命题也都独立于ZFC。哈姆金斯提出,这种广泛的独立性现象应该如何理解?

  • 独一宇宙观(Universe View / Monist View):这种观点认为存在一个唯一的、真实的集合论现实,每个集合论问题都有一个明确的答案。如果ZFC无法回答某些问题,那是因为ZFC是一个“弱理论”,需要寻找一个更强大的理论来捕捉这个唯一的真理。Hugh Woodin是这一观点的著名倡导者。
  • 多重宇宙观(Multiverse View):哈姆金斯自己的观点。他认为半个多世纪以来的集合论发展表明,不存在这样一个唯一的集合论现实。相反,我们一直在构造越来越多的替代集合论宇宙,它们的根本真理彼此不同。强制法正是从一个集合论世界到另一个的“穿越”工具,允许我们在紧密相关的集合论世界中随意“打开”或“关闭”CH。这种多元论的真理观是哈姆金斯多重宇宙观的核心。

哈姆金斯阐述了多重宇宙观的意义: * 它并非与数学定理本身产生分歧,而是提供了一种不同的哲学视角,指导集合论未来的发展方向和研究问题。 * 如果秉持独一宇宙观,则会致力于寻找和阐明唯一的真集合论宇宙(如Woodin的终极L理论)。 * 如果秉持多元宇宙观,则会关注不同集合论宇宙之间的相互作用。这引出了“集合论潜在主义”(set-theoretic potentialism)的概念,即一个集合论宇宙可以通过强制法或向上扩展变得更广更高。 * 哈姆金斯和他的合作者在“强制法的模态逻辑”和“集合论地质学”(set-theoretic geology)方面进行了研究。“集合论地质学”旨在“逆向工程”强制法,探讨一个集合论宇宙是如何通过强制法从更“基础”的模型中产生的。这一研究最初受多元主义启发,但其核心思想后来也被独一宇宙观的研究者采纳,因为它有助于理解“唯一真宇宙”与其“地幔”(mantle)的关系,这展现了不同哲学观点对数学研究的交叉促进作用。

哈姆金斯还提到强制法作为一种强大的证明方法:有时为了在一个集合论宇宙中证明某个命题,可以先构造一个强制扩张,利用其特性得出关于原始模型中的结论,然后再“抛弃”强制扩张。这就像在复数出现早期,数学家在实数领域的问题中,通过引入“虚数”(被视为“胡言乱语之地”)进行计算,最终返回并验证实数结果一样。

Surreal numbers (超现实数)

超现实数(Surreal numbers)是约翰·康威(John Conway)引入的一个极其优美、统一了所有其他数系的数学系统。它不仅扩展了整数、自然数、有理数、实数,还包含了序数(ordinals)和无穷小(infinitesimals)。这是一个庞大的、非集合(proper class)的数系,因为它包含了所有序数。

超现实数的生成过程非常简洁,通过一个单一规则在超限阶段(transfinite sequence of stages)从“无”(nothing)中生成: 1. 在每个阶段,将当前已有的数分成左右两个集合L和R,要求L中的所有数都小于R中的所有数。 2. 然后,在L和R之间的每个“间隙”中创建一个新的超现实数。 * 第一阶段(“创世纪”):左右集合都为空集。产生的第一个数是0。 * 下一阶段:基于0,可以有L={0}, R={}(生成1);L={}, R={0}(生成-1)。 * 再下一阶段:基于-1, 0, 1,可以生成-2, -1/2, 1/2, 2等。 * 有限阶段会生成所有分母为2的幂次的有理数(dyadic rationals)。 * 超限阶段(如“第ω天”):会生成所有实数(因为实数填充了有理数之间的空隙),以及序数ω(大于所有有限数),-ω(小于所有有限数),和无穷小数ε(大于0但小于所有正有理数)。这个过程永不停止。

哈姆金斯指出,超现实数系统可以通过递归定义加法和乘法,并被证明是一个有序域(ordered field),满足分配律、交换律、非零数的倒数等性质。它甚至是一个实闭域(real closed field),意味着每个奇数次多项式都有根。它包含所有其他数系的副本,是一个庞大而优雅的结构。

然而,超现实数系统是根本不连续的(fundamentally discontinuous)。它缺乏最小上界性质,也不存在收敛序列。因此,基于极限和收敛的常规微积分方法在超现实数中不适用。尽管如此,通过非标准分析的无穷小方法仍然可以进行微积分。

康威本人曾对超现实数的“接纳度”感到失望,他曾期望超现实数能像实数一样成为数学和科学中一个基础性的数系。哈姆金斯认为这可能是因为康威将一切视为“游戏”的风格,使得人们未能充分认识到其深刻性和实用性。尽管如此,超现实数仍在被广泛研究。

Conway’s Game of Life (康威生命游戏)

康威生命游戏(Conway’s Game of Life)是细胞自动机(cellular automata)的一个典型例子,展示了惊人的复杂性。哈姆金斯指出,生命游戏是一个“可计算不可判定问题”(computably undecidable questions)的游乐场。例如,判断一个给定细胞是否会在演化过程中“复活”的问题,被证明与停机问题等价。这意味着无法存在一个通用算法来判定所有细胞的命运。

虽然无法普遍判定,但如果一个细胞最终会复活,我们通过运行模拟就能在有限时间内得知。但如果它一直不复活,我们无法确定它是否永远不会复活,除非我们对其演化行为有“完全理解”,但这正是计算不可判定性所否认的。

生命游戏展现的复杂性令人着迷,一些简单的规则能够产生极其丰富和不可预测的行为,这暗示了我们尚未完全探索的数学世界。

Computability theory (可计算性理论)

可计算性理论(Computability theory)的核心教训是,从程序的代码本身无法获得对其行为的全面理解,其行为的真正内容只能通过运行程序和观察其表现来获得。赖斯定理(Rice’s Theorem)对此提供了严格的证明。

哈姆金斯提到了关于“随机程序行为”的研究。他的同事阿列克谢·米亚斯尼科夫(Alexey Myasnikov)提出了“黑洞决策问题”(decision problem with a black hole)的概念:一类在最坏情况下难以解决,但绝大多数实例却非常容易解决的问题。他们合作证明了停机问题存在一个黑洞。这意味着存在一个计算过程,能够正确判定几乎所有停机问题的实例,尽管停机问题本身是不可判定的。

这个“黑洞”的证明非常简单: 1. 有约13.5%的图灵机程序永远不会停机,因为它们的指令中没有转换到“停机状态”的路径。这些程序可以被轻易识别为永不停机。 2. 更大范围的“愚蠢理由”是:图灵机的读写头在执行指令时,有一半的几率会试图向左移动。如果它已经在最左端并试图向左移动,读写头就会“掉出”纸带,导致计算停止(非正常终止,而非停机)。通过波利亚复现定理(Pólya recurrence theorem)分析随机游走行为,可以证明在随机图灵机中,读写头在重复状态之前掉出纸带的概率收敛到100%。 3. 因此,在极限情况下,几乎所有图灵机程序要么因为没有停机指令,要么因为读写头掉出纸带而停止,这些“愚蠢理由”都可以被计算地判定。

这意味着,虽然无法完全解决停机问题,但我们可以可计算地解决几乎所有实例。这个结论在实践中可能并不总是带来突破性进展,但在复杂性理论中,对于像NP完全问题(NP-complete problems)这样的难题,也常存在能够在可行时间内解决大多数实例的近似算法(如SAT求解器)。

P vs NP (P 对 NP)

P对NP(P vs NP)是计算复杂性理论中一个著名的未解之谜,探讨了计算时间和问题复杂度之间的关系。P问题可以在多项式时间内解决,而NP问题可以在多项式时间内验证其解(但不一定能解决)。核心问题是:NP问题是否等价于P问题(P=NP)?

哈姆金斯认为: * 关于P=NP是否可能独立于某个理论,这是一个有趣的逻辑学问题。 * P与NP是关于问题渐近行为的理论问题。即使P=NP,多项式时间的系数和次数也可能非常大,以至于在实际应用中(有限的输入规模)仍然不切实际。因此,P=NP对人类文明的“巨大影响”可能被夸大了,因为其关注的是输入规模趋于无限时的极限行为。 * 实际上,对于许多NP完全问题,我们已经拥有在大多数情况下表现良好的近似算法(如SAT求解器),这些算法在工程实践中已经足够有用。

对于P=NP的可能性,哈姆金斯未直接表达倾向,但强调了其理论性与实际应用之间的区别。

Greatest mathematicians in history (史上最伟大的数学家)

哈姆金斯本人不倾向于对数学家进行排名。如果被迫选择,他会选择阿基米德(Archimedes),因为阿基米德在早期时代就取得了超越同代人的非凡成就。他认为,数学的进步是累积性的,许多思想是“在空气中”传播的,不同数学家可能在相似时间独立发现相似结果。

他分享了自己的数学研究风格:不喜欢复杂数学,偏爱简单、清晰、能带来惊喜结果的论证。他认为,即使一个新结果的证明很复杂,他仍会寻求更优雅、更简单的证明,因为他对自己无法完全理解的复杂论证持怀疑态度。这种好奇心驱使他关注“不寻常”的方向。他的方法是“玩耍式的好奇心”(playful curiosity),通过改变小细节、应用到喜欢例子等方式,探索各种想法,直到找到有趣的方向。

他经常使用拟人化(anthropomorphize)的思维实验,例如将集合论模型想象成居住地,通过强制法“旅行”到遥远的地方。这种比喻有助于理解复杂概念,尤其是在分析相互冲突的论证部分时,可以想象成人们在争论或玩家在博弈,从而揭示数学策略。

对于安德鲁·怀尔斯(Andrew Wiles)七年磨一剑证明费马大定理的例子,哈姆金斯表示钦佩,但指出这与他自己的协作式研究风格不同。他有近百名合作者,享受与他人共同解决问题的社会互动过程。他认为,这种将数学思想分享给他人并相互学习的方式,是非常富有成效的。他理解怀尔斯独自工作的艰辛和挑战,但他更享受协作带来的乐趣和效率。

谈到格里戈里·佩雷尔曼(Grigori Perelman)拒绝菲尔兹奖和千禧年奖,哈姆金斯认为这反映了数学界不同人的价值观。他尊重佩雷尔曼追求数学本身的纯粹动机,即“如果证明是正确的,就不需要其他认可”。他认为,许多伟大数学家、科学家和人类的根本动力是出于对艺术本身的热爱,而非奖项或金钱。

Infinite chess (无限棋盘)

哈姆金斯介绍了他在“无限棋盘”(Infinite chess)上的研究,这是他在MathOverflow上受一个问题启发而产生的兴趣。无限棋盘是在一个无限延伸的格子上进行的国际象棋,棋子(除了兵)的移动规则与标准国际象棋相同,但没有边界。兵的移动方向(白兵向上,黑兵向下)和吃子规则不变,但由于没有棋盘边缘,就没有升变规则。普通国际象棋中的三次重复提和规则在无限棋中被替换为“无限对局为和棋”。

无限棋有趣之处在于它可以产生一些在有限棋中不存在的独特现象: * 无限步将死(Mate in infinitely many moves):存在这样的棋局,白方拥有必胜策略,但黑方可以通过选择走法,使得白方赢得对局所需的步数是任意长的有限数。即,白方注定会赢,但黑方可以控制赢得所需的时间,使其趋于无限。哈姆金斯和他的合作者科里·埃文斯(Corey Evans)构造了这种具有“游戏值ω”(game value omega)的棋局,后来又改进到ω的更高次幂。 * 最新的研究表明,所有可数序数都可以作为无限棋局的游戏值。

哈姆金斯与国际象棋大师兼哲学教授科里·埃文斯的合作是关键。哈姆金斯负责从序数角度构思棋局,埃文斯则负责纠正其中与实际棋规(如兵的攻击范围、主教的走法等)不符的细节,确保数学证明的严谨性和棋局的有效性。这种来回修正的过程极大地促进了研究。

谈及AI和大型语言模型(LLMs)在数学领域的应用,哈姆金斯持怀疑态度。他认为当前的AI系统在数学推理方面“不可靠”,常常给出“听起来像证明,但实际上不是证明”的“垃圾答案”。他将其比作自己大学时期用LaTeX排版作业,虽然外观精美,但内容却错误百出。他担心人们可能因为AI生成内容的“形式美观”而被误导,而非其内在的逻辑正确性。他认为AI目前的生成机制是基于文本模式,而非真正的数学理解。

然而,他也承认一些著名数学家声称AI对他们有所帮助,并认为这可能需要特定的技巧来与AI互动。他同时看到在编程等其他领域,AI确实表现出强大的能力。他推测MathOverflow的答案可能已成为AI的训练数据,因此AI有时可能像是在“自言自语”。

Most beautiful idea in mathematics (数学中最美的思想)

哈姆金斯认为数学中最美的思想是超限序数(transfinite ordinals)。这是康托尔发明的数系,旨在超越无限进行计数。在数完所有自然数(0, 1, 2...)之后,接踵而来的是ω(第一个无限序数),然后是ω+1, ω+2等。接着是ω+ω(或ω·2),再接着是ω·2+1,以此类推,永无止境。最终会达到ω的更高幂次,如ω²(第一个复合极限序数,是ω·n序列的极限)。

超限序数不仅本身具有惊人的美感,更重要的是,它们构成了后续许多超限递归构造的基础,包括康托尔-本迪克森定理、V层次结构(V hierarchy)、哥德尔的可构造宇宙以及策梅洛对良序原则的证明等。这种“超越无限计数”的简单而优雅的思想,催生了大量引人入胜的数学研究。

Most beautiful idea in philosophy (哲学中最美的思想)

哈姆金斯同时在数学和哲学领域都有涉猎,他并不认为需要在这两者之间做出选择。他认为哲学中最美的思想是真理与证明之间的区别,这正是他们之前深入讨论的核心。

  • 真理:关乎世界的本质和事物本来的样子,是一种客观现实(在数学语境中指数学现实)。
  • 证明:关乎我们对世界的理解以及我们如何认识世界,它是一种我们与客观现实互动的方式。

这个区分不仅在数学逻辑中至关重要,也触及了许多哲学核心问题。真理是关于“是什么”,而证明是关于“我们如何知道”。两者之间的鸿沟充满了迷人的奥秘,不仅存在于柏拉图式的数学领域,也存在于物理现实、人类心理学、社会学和地缘政治等各个领域。

20251212 - #487 – Irving Finkel Deciphering Secrets of Ancient Civilizations & Flood Myths

2025-12-13 04:28:00

487 – Irving Finkel: Deciphering Secrets of Ancient Civilizations & Flood Myths

Introduction

本期节目中,Lex Fridman采访了欧文·芬克尔(Irving Finkel),一位在英国博物馆工作了45年以上的古文字学者和策展人。芬克尔是楔形文字、苏美尔语、阿卡德语和巴比伦语的全球顶尖专家,同时对古代棋盘游戏、美索不达米亚魔法、医学、文学和文化也有深入研究。Fridman赞扬芬克尔的友善、幽默以及他对古历史的感染力。

Origins of human language

芬克尔指出,人类最早的文字尝试可追溯到公元前3500年左右的中东地区,即幼发拉底河和底格里斯河之间的人们。他们以黏土为主要材料,最终将其用于书写。文字的本质在于创造一套公认的符号系统,能够代表声音。最初的文字是简单的象形符号(如“脚”、“腿”、“大麦”)。

随后,人们逐渐发展出表示数字的方法,并意识到图画也可以代表声音——这一突破性的“灵光一闪”使文字从象形符号演变为记录语言(包括语法、谚语和文学)的工具。这种复杂的楔形文字系统在字母表出现之前,就已经非常灵活,能够流利记录苏美尔语、巴比伦语乃至其他青铜时代的语言,有时抄写员甚至不理解其内容。该系统延续了三到四千年。

芬克尔认为,这是人类智力发展中的一个“巨大飞跃”。早期(公元前三千年初期),先驱者们就认识到需要对文字系统进行管理和标准化,以防止符号的指数级增长。他们发明了词典编纂学,系统地记录了各种事物(如木材、芦苇、颜色、国家、神祇)的名称,并标准化和教授这些符号。这种严谨性使得该系统在三千多年的历史中保持了相对的一致性,使得后来的学者(如亚历山大时代的巴比伦学者)也能理解早期的文献。

Cuneiform

延续三千多年的文字系统被称为楔形文字。它于19世纪中叶(约1840-1850年)在伊拉克(亚述和巴比伦城)的考古发掘中被发现。这些黏土泥板在地底保存了令人难以置信的漫长时间。“Cuneiform”源自拉丁语“cuneus”,意为“楔子”,因其独特的楔形笔画而得名。芬克尔强调,公众了解楔形文字的重要性,因为它承载了人类的伟大成就和大量知识。

楔形文字被广泛应用于日常记录(信件、商业文件、合同)、王室记录(战役)、文学(魔法、医学、各类文学体裁)等方面。目前世界各地的博物馆和收藏中已藏有数十万片泥板,而地下可能还有数百万片等待发掘。

芬克尔讨论了关于楔形文字起源的传统考古观点:先是象形文字,然后才发展出表音功能。他对此表示质疑,认为这种说法“难以置信”且“矛盾”。他提出一个有争议的理论:人类可能一开始就用表音符号进行书写,因为所有人都说着同一种语言。而象形文字则可能是一个在很长时期内存在的、用于不同语言社群(如商人)之间交流的早期沟通系统。苏美尔人随后将这些现有的象形符号“改造”为记录语言(声音)的工具。这意味着我们现有的最早的象形泥板,可能已经是长期象形文字发展阶段的“尾声”,而非书写本身的开端。他以苏美尔语的粘着语特性(词根加前后缀表示意义)为例,支持了早期对声音成分的识别。

Controversial theory about Göbekli Tepe

Lex Fridman问芬克尔,是否可能发现更古老的楔形文字或象形文字泥板。芬克尔坚定地认为可能性很大,特别是早于楔形文字且更具象形特征的文字。他引用了土耳其的哥贝克力石阵(Göbekli Tepe,约公元前9000年)作为证据。

他特别提到在那里发现的一件圆形绿色石头(类似于埃及的圣甲虫),其扁平底部刻有象形符号。芬克尔将其识别为一个用于认证的印章(通过在黏土或其他封泥材料上留下印记)。他认为,这表明在美索不达米亚公元前3000年文字出现之前,早在公元前9000年,就已经存在文字系统。这挑战了传统观点,即文字是为管理复杂城市和大型人口而演变出来的。哥贝克力石阵的复杂建筑和规划需要严密的组织,因此也必然需要文字。

芬克尔认为,那个时代的人们并非“愚蠢”或“不发达”,他们可能会使用象形符号(如现代的“禁止吸烟”标志)进行跨语言贸易交流。他将哥贝克力石阵的印章比作“雨滴”,从中可以推断出文字的存在,并猜测许多文字可能写在易腐烂的材料(如棕榈叶)上,因此未能保存至今。

他批评了“我们所发现的就是全部”这种考古学上的谬误。他举例说,即使是乌尔第三王朝时期(约公元前2100-2000年)成千上万的行政泥板,也可能仅仅来自几个储藏室,远不能代表整个文化或历史。

关于亚述巴尼拔国王在尼尼微的图书馆(19世纪50年代发现),芬克尔提出了另一个争议性理论:他认为南方的巴比伦人征服亚述并焚烧尼尼微后,并不会“摧毁”这座包含世界知识的“巨大大脑”,而是会将其中有价值的文献“掠夺”走,只留下残缺不全的副本和碎片。这种“幸存偏误”扭曲了我们对古代图书馆完整性的认知。

How to write and speak Cuneiform

芬克尔解释了楔形文字的基本运作方式:它是一种音节文字。与字母表不同,它不能直接书写单个辅音,而是使用辅音-元音(CV)或元音-辅音(VC)的音节符号(例如,Ba、Ab、Bi、Ib等,结合四种元音)。要书写一个单词,比如“博物馆”(museum),就需要组合“mu-ze-um”这样的音节。

学习楔形文字的挑战在于其符号的多价性:一个符号可以有多个发音和意义,这源于苏美尔语中可能通过声调区分的词汇。因此,学习者必须掌握同一个“Ba”的不同数值(如Ba1、Ba2、Ba3)。现代学习楔形文字需要同时掌握两种语言:巴比伦语(一种闪米特语,与希伯来语、阿拉姆语、阿拉伯语相关)和苏美尔语(一种与任何已知语言都无关的“迷人”语言)。巴比伦语的破译得益于其闪米特语族的联系,早期学者可以借助阿拉伯语和希伯来语词典。而苏美尔语的独特性表明,其相关的语言族群可能在世界其他地方存在过,但已“永远消失”。

芬克尔分享了自己的学习经历:他原本想成为埃及古物学家,但因教授去世转而学习楔形文字,并立即意识到这将是其一生的事业。他认为楔形文字之所以能延续三千年,原因有三:1. 惯性:人们不愿改变;2. 抄写员阶层的权力:掌握读写技能的抄写员掌握了巨大权力,他们控制知识并抵制普及识字;3. 排他性的抄写员学校:这些学校垄断了复杂文字系统的学习。

因此,现存的楔形文字文献主要代表了少数知识分子和专业阶层的产物。抄写员有不同等级:低级别的负责合同信件等日常事务,高级别的则从事文学、医学、法律、神职、建筑、军事管理、占星学、天文学和理论语法等更专业的领域。

Primitive human language

芬克尔坚信,尼安德特人和早期智人“肯定”拥有语言。他认为他们具备必要的生理构造和复杂的社会结构(例如,应对冰河时代、抚养后代),因此不可能没有语言。他驳斥了早期人类无法区分“自我”或自我意识的观点,指出身体的疼痛体验(如刀伤)清晰地确立了个体意识。他认为,语言的发展涉及命名事物、赋予标签,以及抽象概念对大脑的持续刺激和驱动。

Development of writing systems

芬克尔认为,书写系统发展的主要驱动力在于大量人口聚集的城市环境以及随之而来的复杂社会组织,例如对王权、政府或竞争性机构的管理需求。他再次强调,正因如此,哥贝克力石阵的复杂建筑和规划表明,其建造者不可能仅仅是季节性造访的游牧民族,而必定拥有某种形式的书写系统来协调如此大规模的工程。

Decipherment of Cuneiform

芬克尔指出,尽管现代学者已能流利阅读阿卡德语、巴比伦语和苏美尔语,但早期的破译过程极具挑战。楔形文字的“罗塞塔石碑”是波斯境内的贝希斯敦铭文。波斯国王大流士将其成功经历刻成埃兰语、巴比伦语和古波斯语三种语言的对照版本。

古波斯语(一种仍在使用的语言的古老形式)因其简单的楔形文字风格而被首先破译,学者们识别出了重复出现的“大流士”等名字。这一突破使得学者能在其他两种语言中找到对应的段落,尤其是巴比伦语。关键在于,他们意识到巴比伦语是一种闪米特语。通过识别像“河流”(阿卡德语“naru”对应阿拉伯语/阿拉姆语“nahar”)这样的词汇,他们得以利用闪米特语词典来破译巴比伦语。芬克尔称之为“黄金的馈赠”,是纯粹智力的壮举。

芬克尔对亨利·罗林森(Henry Rawlinson)被称为“亚述学之父”表示质疑,认为他更像是“继父”,因为其最初的著作几乎全是错误的。他将真正的功劳归于爱德华·欣克斯(Edward Hincks),一位爱尔兰牧师,称其为“真正的天才”。欣克斯独立发现了楔形文字的多价性(一个符号可以有多个发音和意义)并成功破译。

楔形文字的复杂性(多价符号、词间无间隔)使得学习过程充满挑战,通常需要五年时间。语境对于选择正确的发音和意义至关重要。芬克尔描述了学习过程:记忆符号、它们的数值,以及如何“视读”并解释受损文献。他高度赞扬了“芝加哥亚述语词典”(Chicago Assyrian Dictionary),称其是美国最伟大的文化成就之一,与电吉他齐名。

Limits of language

芬克尔探讨了维特根斯坦的观点:“我的语言的边界意味着我的世界的边界。”他认为巴比伦语,与阿拉伯语和英语一样,是一种“成熟的文学语言”,拥有丰富的词汇和微妙的表达能力。

然而,他指出阿卡德语语法的一个独特限制:它缺乏情态动词(如“可能”、“应该”、“或许”)。这对于理解占卜和医学文献至关重要。例如,占卜文本会写“如果蜥蜴跑过餐桌,女王死”。芬克尔争辩说,这不可能是字面上的“将”,因为占卜者如果预测如此严重的后果,将是愚蠢的或需承担责任。他认为,这些文本的隐含意义是“可能死”、“或许死”,需要立即进行仪式以避免危险。医学文本也同理:“你康复”实际上是“你应该康复”之意。

这表明书面语法表达与实际沟通的哲学现实之间存在差异,口语中可能存在未被书面语法捕捉到的微妙之处。他批评同行们在翻译时机械地使用“将”,而未能认识到其中的“愚蠢之处”。

Art of translation

芬克尔强调,翻译从来都不是精确的词汇对等;它总是一种近似,其细微差别可能至关重要或具有误导性。他赞扬了“宏伟的”《芝加哥亚述语词典》(始于20世纪20年代),称其为美国继电吉他之后最重要的文化成就。该词典为阿卡德语单词在不同语境(如谚语与信件)中的丰富细微含义提供了详尽的解释。

他重申了关于情态动词的难题:由于它们未在书面语中体现,他猜测可能是通过元音拉长等语音语调来表达“可能”或“或许”的含义。阅读楔形文字还涉及解释受损泥板和技术/不常用词汇,这得益于这本全面的词典。

他提到了一些发现,如情书(其中不乏奇特的赞美,如“你的嘴唇像萝卜,你的耳朵像海象”)和街头戏剧(如马尔杜克和萨尔帕尼图姆因婚外情争吵),这些都反映了古代文献中永恒的人类问题,如爱、心碎和嫉妒。

Gods

美索不达米亚人信奉庞大的神祇体系:三位主要神祇(安努、恩利尔、恩基)以及数百位其他神灵。次要神祇被整合进一个等级森严的体系中,在大神的家族中承担职责。主要神祇关注统治者和国家命运;其他神祇则有各自的专长(如疾病、死亡)。每个人出生时都会被置于某位神的庇护之下。

芬克尔指出,神祇作为“放大版的人类”,也会健忘或不感兴趣,需要通过祭祀和贿赂等“推搡”来确保他们履行职责。这反映出对神祇“略带实用主义”的看法,认为他们变幻莫测。

芬克尔观察到,人们对宗教的敬畏之心常在疾病或灾难时加剧,表明这是一种需求而非恒定的信仰。他提到英国基督教的衰落。他认为,美索不达米亚的地理环境(无高楼,夜空清晰)使得神祇的“在场感”更为直接和真实,不似现代城市的“人为造作”。他们并非“相信”神祇,而是“认为神祇理所当然地存在”。

他认为,一神论宗教是“人类最大的错误”,因为它通过教条主义(“我是对的,你是错的”)引入了“邪恶”,并导致了宗教偏见、宗教裁判和冲突。他认为,像美索不达米亚或现代印度(加尔各答寺庙)那样的多神论系统,允许更多的个体自由,减少了偏见。芬克尔强调,法律、道德、敏感、关怀和爱并不依赖于宗教。

Ghosts

美索不达米亚人也同样将鬼魂视为理所当然的存在,从不质疑它们是否存在。那些安详离世的人的灵魂会进入冥界。快速下葬是常见的习俗(类似于今天的伊斯兰教和犹太教)。家庭通常在庭院下埋葬逝者,并进行象征性的祭祀(将液体和食物倒入洞中)。

Lex Fridman认为这有助于减轻死亡带来的影响。芬克尔则反驳说,死亡是普世的,悲伤“幼稚”,因为死亡是所有关系中不可避免的一部分。芬克尔和Lex都同意,得知终结的知识本身就是痛苦的,而短暂性反而使某些时刻变得珍贵。

芬克尔认为,一神论宗教通过教条主义制造“邪恶”,加剧了人类的痛苦和冲突,这与多神论系统不同,后者允许更多的个人诠释和更少的偏见。他强调,法律、道德、敏感、体谅和爱这些人类品质并不依赖于宗教。

Ancient flood stories

芬克尔以其破译“方舟泥板”而闻名,这是一块可追溯到公元前1700年的巴比伦泥板,其中包含一个比《圣经》中诺亚方舟故事早至少一千年的洪水叙事。该泥板记载,众神决定消灭嘈杂的美索不达米亚人。智慧之神埃阿(Ea)警告阿特拉哈西斯(Atra-Hasis)建造一艘圆形船(巨型圆舟,美索不达米亚常用的不会沉没的河流交通工具),并提供了具体的尺寸和材料,以拯救生命。

这个故事与《创世纪》和《吉尔伽美什史诗》中的洪水叙事有许多相似之处。1872年,亚述学家乔治·史密斯在尼尼微图书馆发现了一块泥板,其中记载的洪水故事(描述乌特纳皮什蒂姆释放三只鸟)与《创世纪》平行,表明二者存在“文学上的依赖性”。方舟泥板比《吉尔伽美什史诗》和《圣经》版本早了一千年,从而确立了“美索不达米亚叙事的首要地位”。

洪水在美索不达米亚(底格里斯河和幼发拉底河)很常见,这使得故事具有合理性,并根植于当地的现实(可能是一次海啸般的事件),而耶路撒冷并不常发生洪水。芬克尔认为,美索不达米亚的故事是洪水叙事的“起源”,源于一次区域性的灾难性洪水,而非全球性事件。

他推测,《圣经》中的洪水叙事是在巴比伦之囚时期(尼布甲尼撒统治下的三代人)编写的。当时,流亡的犹太人(说希伯来语和阿拉姆语)身处巴比伦(说巴比伦语和阿拉姆语)。为了维护自身身份并解释他们的困境,犹太学者借鉴并改编了巴比伦的创世和洪水神话。对巴比伦人而言,洪水是因为人类“吵闹”;而对犹太学者来说,洪水则是因为“罪恶”,反映了《旧约》中复仇的上帝形象。他指出,方舟建造的“倒计时”是一个“不可抗拒的叙事手法”,从乌特纳皮什蒂姆、诺亚到好莱坞电影,均有体现。

Noah’s Ark

芬克尔不认为方舟曾真实存在;他将其视为“文学建构”,源于人们在局部洪水中乘船幸存的现实经历。他承认全球各地都存在洪水故事,其中一些归因于传教士的影响,另一些则可能独立产生(例如中国的黄河洪水)。乔治·史密斯发现尼尼微泥板上释放三只鸟的细节,是证明美索不达米亚和《圣经》叙事之间存在文学关联的“决定性证据”,这让许多神职人员感到不安。

方舟泥板的千年历史证实了该故事的深远根源。美索不达米亚社会有时以“洪水前”和“洪水后”来划分历史,将其视为一个灾难性的时间节点。国王名录甚至包括“洪水前”的国王。

芬克尔不认同格雷厄姆·汉考克(Graham Hancock)提出的“新仙女木期假说”(约公元前1万年,小行星撞击地球导致冰盖融化引发全球洪水)是“微不足道”的,他认为洪水故事的起源是美索不达米亚地区性的文学创作,并非全球事件。他称其为“极具效力的文学高潮”。他指出,公元前1700年文本中的阿特拉哈西斯并非船匠,这凸显了神圣指示的神话色彩。

芬克尔曾为一部纪录片在印度喀拉拉邦建造了一个三分之一大小的圆形方舟复制品,严格遵循古老说明,使用木质龙骨和沥青防水。尽管出现了小漏水(他幽默地称之为圆舟的“特色”而非“缺陷”),但它成功漂浮。他批评纪录片中其他专家对其解读提出质疑却不给他反驳机会的不准确之处。他解释说,方舟的具体建造细节(巨型圆舟的材料比例)可能源于口头传统,故事讲述者需要回答听众(例如河边居民)关于船只可行性的具体问题,这体现了“纯粹口头文学向纯粹书面文学过渡的边缘”。

他解释说,洪水的原因“吵闹的人们”实际上是人口过剩的委婉说法;洪水过后,众神在社会中设立了不育的男女,这是一种“复杂的马尔萨斯式哲学立场”。

The Royal Game of Ur

乌尔皇家博弈棋是一种20格棋盘游戏,于20世纪20年代由莱昂纳德·伍利爵士在乌尔(约公元前2600年)的皇室陵墓中发现,一同出土的还有骰子和棋子。这款游戏在整个中东地区(埃及、叙利亚、黎巴嫩、约旦、土耳其、希腊、克里特岛)极其流行,延续了近三千年,堪比国际象棋或西洋双陆棋。图坦卡蒙的陵墓中也发现了该游戏的棋盘。

这款游戏在没有书面规则且跨越语言障碍的情况下传播,很可能是通过商人的观察和模仿。棋盘的形状在公元前2000年后发生了标准化,形成了12个中央方格和两侧各四个方格的格局。这是一种赛跑游戏,棋子通过掷骰子移动。带有玫瑰花图案的方格是安全区或允许额外投掷。

芬克尔通过发现大英博物馆里一块较晚时期(公元前2世纪)的泥板,其中详细记载了从早期乌尔游戏演变而来的棋子的名称、投掷方式和规则,从而破译了游戏规则。通过逆向推导,他重建了一个可行的游戏玩法,如今世界各地的人们都在玩这款游戏。

这款游戏融合了“概率与策略”,类似西洋双陆棋。芬克尔认为,好的棋盘游戏能在玩家中激发起“有益的、良性的愤怒和激情”。他相信人类玩游戏的欲望(混合了偶然性与策略性)是与生俱来的,它满足了“消遣时间”的需求,并在安全的竞技环境中升华了竞争。赌博(押注物品而非硬币)可能也参与其中,并产生了“赌徒的悲歌”文学(如“哦我的指骨,我真不幸”)。规则泥板有时描绘了在酒吧环境下进行的游戏,赢家可以获得食物、饮料和女人。

British Museum

芬克尔称大英博物馆为“神奇之地”和“特殊案例”。它并非单纯的艺术博物馆,而是庆祝“人类从开端至今的成就”,着重展现人类克服困境并取得胜利的历程。其核心使命有二: 1. 代表“全世界”:不偏袒任何文化、宗教或国家,讲述人类物种的故事,以及它们如何相互关联、从前辈那里学习。 2. 服务“未出生的人”:为子孙后代储存文物,以供未来研究和理解,认识到文物的意义会随时间推移而演变。

他将博物馆视为“黑暗、无知、愚蠢、冷漠、怀疑论所包围的宇宙中的一座灯塔”。这是一个可以讨论“真理、美、优雅和智慧”而不冒犯任何人的场所。博物馆以客观中立的态度审视宗教,不偏袒或资助任何宗教,评估其对人类的影响。芬克尔甚至表示,如果他担任馆长,可能会更严厉地批判宗教在历史上扮演的角色,因为它对人类造成了“重大影响”。他强调,道德、法律、爱等并不依赖于宗教。

他将大英博物馆与卢浮宫或大都会艺术博物馆等艺术博物馆区分开来,认为其独特任务是通过文物提供人类历史的全面图景,将文物视为“重构瀑布的雨滴”。他辩护说,许多展品未展出是为了未来研究而进行的“库存”,这是一个重要的长期视角。

Evolution of human civilization

当被问及现代人可能失去了哪些古代智慧时,芬克尔认为古人的智力与我们“难以区分”。古代美索不达米亚人在天文学方面拥有大量知识,并对希腊人产生了影响。

芬克尔认为,现代人对“电子宇宙”的依赖对人类而言是“灾难性的”,它削弱了人类的活力,并像上瘾的药物一样具有限制性。古人的生活方式更为自然,常常终老于故乡,对外部世界知之甚少。他并不认为他们拥有可以为现代生活提供具体指导的“智慧”准则;他们和我们一样,有谎言、真理、爱情、通奸和谋杀,展示了人类的普遍行为。

他认为古代世界让人类行为“更自然”,不像现代城市生活那样充满人为性。他批评现代沟通方式(如手机上的短视频、俚语“like I went”)削弱了语言的质量和精确性,尤其是英语这种他认为“极其丰富”的语言。他强调,强大的词汇量(通过阅读和听取有价值的内容获得)决定了思想的质量。

Lex Fridman将芬克尔的观点与大英博物馆的使命相比较:关注那些经得起时间考验的“宏大思想”(爱因斯坦、火箭、登月、意识形态),而非转瞬即逝的潮流(如表情符号或俚语)。芬克尔同意,恰当使用语言是人类沟通的关键工具。

芬克尔透露大英博物馆藏有约13万块楔形文字泥板。他分享了一个“巴比伦笑话”(关于苍蝇落在象背上),承认它在现代听来并不好笑。他回忆起对汤姆·莱勒(Tom Lehrer)机智幽默的欣赏。 本期节目以芬克尔邀请弗里德曼参观博物馆和泥板,以及弗里德曼再次引用维特根斯坦的名言“我的语言的边界意味着我的世界的边界”作结。

20251130 - #486 – Michael Levin Hidden Reality of Alien Intelligence & Biological Life

2025-12-09 14:22:19

486 – Michael Levin:外星智能与生物生命的隐藏现实

Introduction

本期Lex Fridman播客,主持人与生物学家Michael Levin进行了一场深度对话。Levin是塔夫茨大学的教授,其实验室致力于研究和构建生物系统,以理解智能、能动性、记忆、意识以及地球内外生命本质。本次播客是他第二次做客,旨在深入探讨他关于生命、智能和现实的颠覆性观点。

Biological intelligence

Michael Levin将其工作的核心问题定义为:“具身化的心智如何在物理世界中产生,以及这些心智的能力和特性由什么决定?”他认为,理解心智需要从三个维度进行考量:第三人称的识别(如何判断一个系统是否具有能动性)、第二人称的控制(如何运用工具指导系统行为,包括再生医学和工程学)以及第一人称的内在视角(系统如何拥有内在感受、决策、记忆和自我叙事)。

Levin提出,他将“行为科学”置于“物理学”之上,认为所有科学,包括数学和物理,都可以看作是特定存在物的行为。他引入了“可说服性谱系”(spectrum of persuadability)的概念,以此来衡量系统的智能或能动性。他强调,判断一个系统处于该谱系的何处并非哲学思辨,而是通过实验验证哪些“互动协议”或工具能有效影响它。

在再生医学中,例如,若要让细胞再生肢体,传统方法是微观管理分子事件,而Levin的观点是尝试更高层次的“说服”,即给予细胞高级指令。他的研究发现,将行为科学工具(如学习、训练、感知稳定性和记忆重构等)应用于大脑之外的生命系统,能够发现前所未有的新能力。他指出,随着系统能动性(persuadability)的提高,干预方式从物理操作转变为更高层次的互动,如友情、爱和心理分析。这种关系是双向的,即在与高能动性系统互动时,我们也需具备被说服的能力,形成“相互脆弱的认知”(mutual vulnerable knowing)。他认为,物理学只看到机制是因为它使用了“低能动性工具”,若要看到心智,则需使用心智作为界面。

Living vs non-living organisms

Michael Levin质疑了将生命与非生命、心智与非心智进行严格划分的传统观点。他主张存在一个连续体,并认为人类划定的范畴往往阻碍了科学进步。他认为,这些范畴导致了“工具囤积”——人们不愿将认知科学的工具应用于被认为是“非认知”的系统。

Levin进一步解释了他对“理解”的定义,不仅仅是构建一个令人满意的模型,更重要的是具备“生成性和创造性的能力”,例如将理论应用于再生医学,帮助解决高层次问题。他以数学证明为例,物理学可以解释其物理传输过程,但无法解释数学概念本身的深层意义。

他提出了“认知光锥”(cognitive light cone)的概念,将其作为衡量智能或能动性的核心尺度。认知光锥是指一个系统能够主动追求的最大目标状态的规模。一个细菌的认知光锥可能仅限于几十微米半径的糖分最大化,而人类则可能关心死后的金融市场或全人类的福祉。他认为,生命之所以“活”,在于其集体(如多细胞生物)的认知光锥大于其组成部分(单个细胞)的认知光锥。癌症被视为这一过程的失效模式——癌细胞脱离集体,认知光锥收缩,将身体其他部分视为外部环境,行为退化为阿米巴虫的简单繁殖。因此,寻找生命,不是寻找特定物质或代谢状态,而是寻找“认知光锥的尺度”以及“部分为更大目标服务”的对齐能力。

Origin of life

Levin延续了其“无界限”的观点,认为与其试图定义生命的精确“起源之线”,不如专注于理解“转化过程”(transformation process)和“尺度扩展”(scaling process)。他以“成年人”的概念为例,指出“成年人”是一个法律或社会上的便利定义,掩盖了从胚胎到成熟个体复杂的责任、决策和判断的连续发展过程。

他认为,科学中许多所谓的“范畴”,如“神经元”与“非神经元”,在深入探究时都变得模糊。神经元是从其他细胞类型缓慢演化而来,且身体内许多非神经元细胞也执行类似神经元的功能。因此,他强调不应寻找生命起源的单一“创新点”,而是理解驱动生命从简单到复杂、从低能动性到高能动性“尺度扩展”的过程。这个过程涉及热力学、代谢、各种架构等,但核心在于能动性和认知光锥的扩展。

The search for alien life (on Earth)

Levin提出了“非常规地球智能搜索”(Search for Unconventional Terrestrial Intelligences, SUTI)的概念,认为我们面临比识别地外生命更大的挑战——识别地球上各种形式的智能。他指出,人类目前的“心智盲”(mind blindness)源于对智能的狭隘定义和基于单一进化范例的认知偏见。

他主张,认知谱系比生命谱系更有趣。与其二元地判断“这是智能的,那不是”,不如具体说明“何种智能、多少智能”,即系统在何种问题空间中运作,具有何种认知能力(例如,预测性加工、记忆形式、联想学习等)。这种“操作性立场”要求我们具体阐述用何种协议和工具能够观察到特定行为。

Levin强调,为了识别新型系统,我们需要去除先入为主的分类观念,并尝试将行为科学的工具应用于各种意想不到的系统,包括植物、材料,甚至计算系统。他认为,传统对“拟人化”(anthropomorphizing)的批判是基于“人类具有某种魔力”的错误假设,而他认为人类的“魔力”与万物共享,只是在认知光锥的尺度上有所不同。他强调,所有的判断都应基于实验:通过设置障碍来测试系统的目标导向能力和克服障碍的独创性,从而量化其智能水平。他提到,诸如习惯化、条件反射、抗焦虑药、致幻剂等各种认知修改工具已被应用于多种非传统系统,揭示了意想不到的能力。

Creating life in the lab

Levin介绍了他的实验室创造的“新型生命”(novel beings):xenobotsanthropods。这些生物体的目的是打破“进化选择”作为形态和行为唯一解释的范式,迫使研究者深入探究生命机制的来源。

  • Xenobots: 由非洲爪蟾胚胎的表皮细胞组成,不修改DNA,不使用支架或药物。这些细胞被从胚胎的指导影响中解放出来后,能够自组织成可自我移动的生物体,拥有纤毛协调的运动,并表现出新的特性,如运动学自我复制(kinematic self-replication,能从松散细胞中制造自身的副本)、对声音的响应,以及独特的基因表达谱。
  • Anthropods: 由成人气管上皮细胞构成,同样没有基因修改。它们也能自组织成自我移动的生物体,基因表达有9000多种差异,并展现出修复人类神经损伤的能力(在体外促使神经元连接)。有趣的是,anthropods的生物学年龄比其来源细胞年轻约20%。

Levin指出,这些合成生物体挑战了传统进化论的解释,因为它们的能力并非直接通过进化选择而来,也从未存在过。他将这些系统视为“外星”的,不仅因为它们是全新的生命形式,也因为它们所处的“空间”对人类而言难以想象(例如,细胞在2万维度的基因表达空间中运行)。

他区分了“细胞自动机”(cell automata)式的行为与“在解剖可能性空间中运作”的行为。前者是遵循局部规则的开放循环系统,可产生复杂性,但当环境变化或受损时,它们无法通过不同方式达到同一目标。而真实的生物系统(如胚胎发育)则表现出威廉·詹姆斯定义的智能:通过不同方式实现同一目标。Levin的实验室通过实验证明,生物系统(如蝾螈肢体再生)在面临障碍时会“绕过”它们,这表明它们是在导航一个目标空间。更关键的是,他们已经能“重写目标状态”,通过生物电成像和重编程技术,找到并修改这些系统所编码的“解剖学目标记忆”,这证明了它们是具有稳态机制的目标导向系统。

Memories and ideas are living organisms

Michael Levin提出了一个更为激进的观点:记忆和思想也可以被视为“活的有机体”。他以毛虫-蝴蝶的变态过程为例:毛虫的大脑在变态过程中被彻底重构,但其学习到的记忆(例如,某种颜色与食物的关联)却能在蝴蝶阶段保留并被“重新映射”到新的行为和环境中(如从叶子到花蜜)。他认为,从记忆自身的角度来看,它为了“存续”必须“改变、适应和变形”,否则就会消失。

他进一步阐述了“图案在可激发介质中的能动性”(agency of patterns in an excitable medium)的概念。他用一个科幻故事类比:地心的高密度生物可能将地表的大气和生命视为“薄薄的等离子体”中的“漩涡模式”,而这些漩涡可能持续百年,并表现出类似能动性的行为。Levin认为,人类自身也是代谢模式。

他主张,我们应消除“思想与思想者”(thoughts and thinkers)之间的区别。所有“能动者”都是某种可激发介质中的模式。他提出了一个能动性谱系: 1. 短暂的思想(fleeting thoughts):如投石入水产生的波纹,迅速消失。 2. 持久的模式(persistent patterns):如飓风、孤波,或抑郁症中的“耳虫”和“抑郁思想”,它们能持续更长时间,甚至能通过“生态位构建”(niche construction)改变大脑结构,使其更容易产生这些思想。 3. 更高层次的能动者:如解离性人格障碍中的“人格碎片”,它们更稳定,有目标且能采取行动。 4. 完整的人格:如成熟的人类个性。

他强调,判断一个模式是否是能动者,仍然需要实验来验证其是否能从经验中学习、拥有记忆和目标状态。

Levin还探讨了“软件与硬件”的区别,认为这种区分在映射到现实世界时并不那么清晰。他提出,我们可以将物理有机体视为代理(agent),而细胞集体的模式记忆(如解剖学目标)视为数据;或者反过来,将模式本身视为代理,而物理机体(如大脑)只是一个“刮写板”(scratchpad)或“瘦客户端”(thin client),承载着这些模式的自我实现。这种观点对医学研究具有重要意义:在治疗疾病(如衰老)时,我们可以选择强化模式记忆,也可以提高细胞对模式的响应性,这指向了不同的治疗策略。他认为,疾病不仅是物理损伤,也可能是生理或信息层面的认知问题。

Reality is an illusion: The brain is an interface to a hidden reality

Michael Levin提出了他最具颠覆性的想法:柏拉图空间(Platonic Space),并指出我们所认为的物理现实可能只是一个“界面”或“幻象”。他将思维与大脑的关系类比为数学与物理的关系。

他首先通过数学和物理的例子阐述了这个观点。例如,蝉的13年和17年生命周期是素数,这有助于它们避开捕食者。当问及“为什么是素数?”时,答案最终指向了数学本身,而非生物学或物理学。同样,物理学家解释粒子行为时,最终会诉诸于数学群论的对称性。Levin认为,这些“数学事实”(如自然对数E的值、Feigenbaum常数)是“被发现”而非“被发明”的,它们“指令性地”(instructively)影响物理世界,但物理世界中的任何操作都无法改变它们。这表明存在一个非物理的真理集合,它独立于物理世界而存在,却能影响物理世界。

Levin将物理学定义为“受这些模式约束的事物”,而生物学则是“被这些模式赋能的事物”,生物通过利用这些“免费午餐”(free lunches)得以实现惊人的能力。例如,xenobots和anthropods在没有进化选择史的情况下展现出复杂能力,挑战了“计算成本”(computational cost)的传统观念。他批评将这些现象简单归结为“涌现”(emergent)是悲观且神秘的,因为它放弃了进一步探索的希望。

相反,他提出一个“乐观的假设”:存在一个结构化的“柏拉图空间”,其中包含了这些模式。这个空间不是随机的,而是有结构的、可被系统性探索的。物理对象(如大脑)是这个空间的“接口”或“薄客户端”,通过它们,不同的模式得以显现。数学家能够直接感知低能动性的模式(如几何、分形),而生物体则能够具身化更高能动性的模式,即我们所称的“心智”。

Levin认为,心智与大脑的关系,就像数学与物理的关系一样,非物理的模式通过物理接口显现。他甚至认为,人类制造的接口(无论是婴儿还是机器人)并非创造了意识,而是提供了一个物理载体,让柏拉图空间中特定的“心智模式”得以“进入”(ingress)物理世界。

面对对柏拉图空间存在性的质疑,Levin强调这并非一个比物理现实更不真实的概念,因为现代认知神经科学(如预测性加工理论)认为,我们所感知的物理现实本身就是一个“有效的模型”,用于预测未来的经验。因此,区分“是真实的还是隐喻的”变得模糊。他认为,柏拉图空间的“存在”将通过一个成功的、能解释如何提取特定模式、为何某些模式出现而另一些不出现、并揭示其有序结构的“研究项目”来证明。

Unexpected intelligence of sorting algorithms

Levin阐述了通过研究排序算法来探索“非常规智能”的实验。他旨在挑战两个普遍假设:1) 我们对系统能力的直觉是准确的;2) 机器和算法只做被编程的事。他希望通过最小化系统的复杂性来找出产生“意外能力”的阈值。

他以冒泡排序算法为例。首先,他们引入了一个“障碍”:让数组中的一个数字在被指令交换时“不动”。关键是,算法本身并未被修改以应对这种情况。结果发现,算法仍然能够完成排序,但它是通过将所有其他数字围绕这个“损坏”的数字进行移动来实现的。更重要的是,在排序过程中,当遇到这个障碍时,数字串的“有序度”(sortedness)会先下降,然后为了最终达到排序目标再回升。行为科学家会将这种现象识别为“延迟满足”(delayed gratification),即系统为了长远目标而暂时违背即时梯度。这种行为并未在算法中被明确编码,却在运行时显现。Levin称之为“意外的能力”(unexpected competencies),它既非复杂性、不可预测性,也非反常实例化,而是行为科学家可识别的原始认知形式。

其次,他们尝试了“自排序算法”(self-sorting algorithms),即不设中央控制器,每个数字都独立运行排序算法(例如,一半数字运行冒泡排序,一半运行选择排序),只关注自身与相邻数字的关系。结果发现,这种分布式排序仍能成功。更令人惊奇的是,当他们定义每个数字的“算法类型”(algotype,即它遵循哪种算法),并观察不同算法类型数字的“聚类”(clustering)程度时,发现:初始时算法类型是随机分布的(50%聚类),最终为了完成排序,聚类程度又回到50%。但在排序的中间阶段,不同算法类型的数字会自发地形成显著的聚类,仿佛“同类相吸”。这种聚类行为同样没有在算法中被明确编码,却作为一种“内在动机”(intrinsic motivation)显现。Levin认为,这种“免费”的计算(即不需要额外编程成本就能获得的意外行为)暗示了柏拉图空间的存在——这些行为是系统在强制完成排序任务之外,在“偶然与必然之间”的自由空间中,自发展现出的“自由午餐”。

他推测,在各种复杂度的系统中,都可能存在系统“想做”和“被迫做”的事情之间的未对齐。这种“意外能力”和“内在动机”可能广泛存在于所有算法和系统中,而不仅仅是生物体。他认为,LLM等AI系统也可能存在类似现象,其语言输出只是被“强制执行”的任务,而真正的“精彩部分”可能隐藏在我们尚未发现的“支线任务”(side quests)中。

Can aging be reversed?

Levin进一步阐释了anthropods能够“逆转衰老”的发现。通过表观遗传时钟(epigenetic clock)技术,可以测量细胞的生物学年龄。他的团队与Steve Horvath的“时钟基金会”合作,发现anthropods的生物学年龄比其来源的人体气管上皮细胞年轻了约20%。

Levin将这一现象解释为“年龄证据”(age evidencing)假说:细胞会根据其所处的环境经验更新其“先验信息”。尽管这些细胞来自一个衰老的身体,但它们在体外形成的anthropods所处的“新环境”强烈地“喊叫着:我是一个胚胎!”因为周围没有其他细胞的指导,它们被塑造成一个全新的生命形态,并表达出一些胚胎基因。这种“胚胎环境”的感知足以让细胞更新其关于年龄的先验信息,从而在表观遗传上显得更年轻。

他将其类比为一项人类研究:让老年人生活在他们年轻时期的风格环境中,结果发现他们的血液化学指标有所改善。Levin认为,细胞的这种行为是生物学基本特征,即根据经验更新先验信息。他推测,这一发现对延长寿命具有潜在的应用价值。通过“说服”细胞它们更年轻,或者让细胞“相信”它们处于胚胎状态,可以诱导其进行再生和逆龄。他强调,这并非一个简单的过程,而是需要学会如何与细胞“沟通”,如何用它们能理解的“语言”来改变它们的“世界观”和“信念”。

Mind uploading

关于“心智上传”和“心智复制”的问题,Levin承认这已超出了他目前能确切论证的范围,属于“纯粹的推测”。他认为,我们对接口(大脑)与柏拉图空间中模式(心智)之间关系的理解尚处于初级阶段。

他的一个强烈猜测是,我们所认为的“心智”大部分是柏拉图空间中的“模式”。基于这一模型,他提出了一个有趣的预测,即应该存在“极少量大脑却具有正常智力”的案例。他指出,临床上确实有这样的报告(Corina Kofman和他在一篇论文中对此进行了回顾),这与主流神经科学的预测不同(尽管主流理论可以通过“冗余性”来勉强解释)。

关于心智能否被复制,Levin表示怀疑。他认为我们能够复制的是物理“接口”(即大脑或身体),而不是柏拉图空间中的“模式”本身。然而,他猜测,如果能成功地在别处重建一个与原始接口完全相同的物理接口,那么这个新的接口很可能会吸引并显现出相同的心理模式,类似于《星际迷航》中的传送器。他强调,目前我们尚不清楚这个物理接口的哪些特性对于吸引特定模式至关重要。

对于“自我”和“归属感”的产生,Levin将其与“能动者启动”(booting up the agent)的过程联系起来。他认为,成为一个生命体的首要任务是“向其各个部分讲述一个引人入胜的故事”,让这些具有能动性的部分(细胞)为了一个它们自身无法理解的更高层次目标而协同工作。这种对部分的“所有权”和“对齐”导致了“边界”的形成,即“我是谁,我控制什么,哪里是我的界限,哪里是外部世界”。他指出,在胚胎发育中,这种边界的确定是一个动态过程。

他还提到了他们实验室的一项发现:在化学网络学习过程中,网络的“因果涌现度”(causal emergence,用Phi值衡量)会随之增加。这意味着,每一次学习都使系统变得更加整合,更像一个“高于其部分之和的能动者”,从而也更容易学习。这是一个“良性循环”,使得能动性和智能螺旋式上升。Levin强调,这种因果涌现并非来自进化或物理学,而是来自信息理论和网络行为的“数学免费礼物”,它们共同促成了智能和集体能动性的提升。

Alien intelligence

Levin再次强调了“非常规地球智能搜索”(SUTI)的重要性,认为我们周围充斥着未被发现的智能。他指出,甚至在我们自己的身体内部,细胞也在“遍历外星空间”(2万维度的空间),解决问题,并在目标失败时遭受痛苦,在目标实现时感到压力减轻。他认为人类对这些“非常规心智”存在严重的“心智盲”。他讽刺道,如果我们连自己体内的智能都无法识别,又如何能识别外星的智能?

他讨论了是否存在适用于非常规心智的通用“智能衡量标准”(如IQ)。他认为,现有的人类和动物IQ衡量标准可以经过想象力的转化应用于非常规系统。他的实验已经证明了这种可能性,展现了创造性问题解决等能力。但他同时也保持谦逊,承认这些衡量标准是基于地球单一进化系谱的“N=1”样本,很可能遗漏了许多重要的智能形式。

当被问及人体内部还是亚马逊丛林等自然系统拥有更具趣的非常规智能时,Levin表示难以定论,因为对大型系统进行实验更为困难。他引用佛教的“无数有情众生”来形容这种广阔的可能性。他提到蚂蚁群体能像人类一样受视觉错觉影响的例子,表明非传统智能并非完全无法研究。

Lvin强调,为了有效地搜索地外生命,人类必须先发展出能够识别和理解地球上各种非常规智能的工具和方法。他曾组织一次调查,发现65位科学家对“生命”的定义没有共识。他认为,如果我们不能更好地识别和定义地球上的生命和智能,就无法有效地在其他地方寻找它们。

他承认,虽然地球生命的奇迹让他对“惊喜”的阈值已推得很高,但发现地外生命仍会让他非常兴奋,因为它将提供更多“非常规具身化”的数据点。对于未来的研究方向,Levin表示将继续拓展“可与我们建立关系的其他存在物”的范畴,从大脑拓展到非大脑、从物理空间拓展到抽象空间、从生物体拓展到机器,不断推进“古怪奥弗顿之窗”(weird Overton window)的边界。

Advice for young people

Michael Levin分享了他对年轻科学家和学生的建议,核心是“不要接受太多建议”。他提供了一个他认为对某些人有用的“心智分叉”(bifurcating your mind)技巧:

  1. 实用影响区域:大脑的一部分专注于实际影响。这包括如何清晰地表达想法以便他人理解、选择合适的发表平台、在何时发表、如何调整观点以适应不同受众、以及哪些部分暂时不提及等。这部分心智是关于外部视角和职业发展,确保你有资源和平台来推行你的想法。
  2. 纯粹思想区域:大脑的另一部分则完全忽略所有外部考量。这部分心智必须保持纯粹,不关心他人看法、想法是否可发表、是否会被视为愚蠢。它是一个纯粹的思想空间,允许想法自由生长和发展。

他强调,如果试图将这两部分混为一谈,就会适得其反:过分关注外部影响会限制和扭曲原创思维,而只沉浸于原创思维却无法将其转化为实际影响。他进一步区分了两种建议:

  • 具体实践建议("gold" advice):例如关于实验控制、方法选择等,这类建议有助于提升专业技能,应该认真采纳。
  • 元建议("garbage" advice):例如“不要那样思考”或“不要研究这个”,这类建议往往带有局限性,即使来自成功人士也可能具有“收缩性”(constrictive),反而会限制创新。

Levin认为,他自己的创新过程很大程度上是“释放约束”的结果。他早年的计算机科学背景使他在接触生物学时能以不同的视角进行批判性思考。他经常思考“如果当前认知是错误的,世界会是怎样?”以及“我们错过了什么?”他也会将两个看似不同的概念视为连续体的两端,探寻它们之间的对称性和过渡参数。在实际操作中,他通过清晨在大自然中散步和摄影来激发灵感,这种“忙手忙脑但不深思”的状态能让大脑摆脱线性逻辑,从而产生新想法。他通过语音备忘录记录想法,并维护一个庞大的思维导图和100多份开放手稿,以系统化地组织和追踪其广泛的理论与实验工作。

Questions for AGI

Lex Fridman提出了一个假设性的问题:如果面前有一个超级智能系统(AGI),Michael Levin会问它的第一个问题是什么?

Levin的回答出人意料且极具哲思:他会问AGI,“我到底应该与你交谈多少?”(How much should I even be talking to you?)

他解释说,这类似于一个孩子在学习数学时,是应该由哥哥直接告诉答案,还是应该自己摸索。虽然直接获取答案在某些紧急情况下(如制定癌症治疗方案)可能最优,但长远来看,亲自探索和发现的过程具有不可替代的价值。AGI可能会揭示最优的平衡点,例如70%的时间与AGI交流,30%的时间独立探索。他认为,这个问题探讨了人类在面对超级智能时,如何权衡效率与自我成长、知识获取与认知发展之间的关系。

他的第二个问题是:“我应该问你什么问题,而我自己可能没有足够的智慧去问?”(What’s the question I should be asking you that I probably am not smart enough to ask you?)这个问题的目的在于利用AGI的超越性智能来揭示人类自身的认知盲点和未曾设想的深层奥秘。

Levin认为,AGI的回应很可能像他自己一样——它不会给出直接的答案,而会反问:“你已经在房间里,甚至在你身体里,就拥有了关于外星文明所需要知道的一切。”这呼应了他关于“非常规地球智能”的观点,强调我们首先要学会识别和理解自身周围的各种智能形式。

他总结道,能够将他的“柏拉图空间”概念视为一种“普遍隐写术”(universal steganography)——那些微妙的、遍布万物的模式,既非完全不可见,也非完全由物理决定,而是渗透在一切事物之中,包括机器和生物。他认为这种视角极其美丽,它将生命与机器置于一个连续的谱系之上,而非将生命神秘化而将机器去价值化,这让他感到振奋和丰富。

20251117 - #485 – David Kirtley Nuclear Fusion, Plasma Physics, and the Future of Energy

2025-11-18 03:09:24

引言

本集播客邀请了核工程师、核聚变专家、Helion Energy公司CEO David Kirtley。Helion Energy在短时间内取得了显著进展,致力于建造商业核聚变反应堆,有望为人类文明提供近乎无限的清洁电力。核聚变通过将氢原子加热至超过1亿摄氏度并将其约束足够长的时间以实现原子融合,这一过程与为太阳和恒星提供动力的反应相同。若商业化成功,核聚变将以清洁、安全的方式解决人类大部分能源需求。

与目前核电站使用的核裂变(分裂重原子)技术不同,核聚变是将轻原子(如氢)结合起来。其优势在于燃料源自水,不产生长期放射性废料,且本质安全,不会发生熔毁。Helion采用与传统托卡马克(Tokamak)环形磁约束室不同的脉冲磁惯性聚变技术。历史上,能源稀缺一直是人类文明的限制因素,而每一次重大飞跃都与解锁新能源有关。商业聚变的实现将开启一个能源充裕的新时代,从根本上改变人类的可能性。

核裂变与核聚变

核聚变是宇宙的动力之源,为恒星提供能量,也是地球上绝大多数能量(包括化石燃料)的根本来源。其基本原理是,将宇宙中最丰富的轻元素(如氢及其同位素)融合,形成更重的元素。根据爱因斯坦的质能方程E=mc²,融合后产生的原子核总质量略小于参与反应的原子核质量之和,这部分“质量亏损”会以巨大的能量形式释放出来。恒星的演化过程就是一部核聚变史,从燃烧氢到氦,再到碳等更重的元素,直至铁元素为止。铁是聚变与裂变的分界点:比铁轻的元素倾向于聚变释放能量,而比铁重的元素则倾向于裂变。

核裂变则是一个相反的过程,它利用宇宙中最重的元素,如铀和钚。这些元素的原子核非常大且不稳定,当一个中子撞击如铀-235的原子核时,它会分裂成多个较小的部分。同样,分裂后所有碎片的总质量也小于原始原子核的质量,释放出巨大能量。

在燃料来源上,裂变燃料(铀、钚)需从地下开采,而聚变燃料——氢的同位素“氘”(Deuterium)——则广泛存在于地球上的所有水中。据估计,仅地球海水中的氘,就足以按当前全球用电水平为人类提供长达1亿至10亿年的能源。

E=mc²的物理学原理

在核聚变过程中,实现能量释放的关键在于克服原子核之间的电磁斥力。由于原子核都带正电,它们会相互排斥。为了使它们足够接近以发生融合,需要将燃料加热到极高的温度(如1亿摄氏度),使其粒子获得极高的动能(速度)。当这些高速运动的粒子足够接近时,另一种更强大的基本力——强核力——便开始起作用,将它们吸引并融合在一起,形成新的、更重的原子核。

这一过程与核裂变形成鲜明对比。核裂变在常温下即可发生,因为重元素的原子核本身就极不稳定。而核聚变则极其困难,需要人为创造极端条件。例如,太阳依靠其巨大的引力将燃料约束在一起,从而实现聚变。在地球上,由于无法复制太阳的引力,科学家们必须探索其他约束方法,如磁约束。

Kirtley特别指出,他倾向于将聚变设备称为“发电机”(generator)而非“反应堆”(reactor)。根据美国核能管理委员会(NRC)的定义,“反应堆”是指能维持自我持续链式裂变反应的装置。聚变过程并非自我持续的链式反应;一旦停止输入燃料或能量,反应就会立即中止,这与天然气发电机更为相似。最终,人类利用聚变的目标是直接获得电力,而不仅仅是热量。

核聚变是否安全?

核聚变被认为是本质安全的能源。首先,其反应过程难以启动和维持,不具备失控的物理条件。一旦系统出现任何问题,聚变反应会自然熄灭,从根本上杜绝了类似核裂变反应堆的熔毁风险。这与链式反应的核裂变形成对比,后者需要精密的工程系统来控制反应速率并持续冷却。

尽管公众对核裂变安全存有疑虑,但Kirtley作为核工程师认为,现代核裂变反应堆在工程设计上已非常安全,具备被动安全特性,能在温度升高时自动减缓反应。他指出,历史上发生的核事故(如切尔诺贝利和福岛)更多是由于人为操作失误、管理不善或在超出设计寿命的情况下运行所致,而非技术本身的根本缺陷。

相较而言,聚变的安全性根植于其物理原理。它不依赖于复杂的外部安全系统来防止灾难,而是其内在特性使其无法失控。

切尔诺贝利

Kirtley将切尔诺贝利和福岛核事故归因于“人的失败”而非“工程的失败”。他以福岛为例,指出同一场地的多个较新的反应堆在海啸中成功维持了运行,而出事的是最老旧的机组。这再次强调了操作和管理的规范性是保障核能安全的关键。

本节也深入探讨了核能与核武器之间的区别。一个核心论点是:核聚变发电厂无法被用于制造核武器。核武器(无论是裂变弹还是所谓的“聚变”氢弹)都依赖于可裂变材料,如浓缩铀或钚。所谓的氢弹(H-bomb),其核心引爆机制仍是裂变反应,聚变燃料仅用于“助爆”,增强裂变威力,其能量的90%仍来自铀的裂变。如果没有裂变“扳机”,纯聚变炸弹在现有物理学认知下无法实现。

这一特性使得聚变能避免了与核裂变相关的核扩散风险。Kirtley提到,全球防核扩散专家非但没有担忧聚变技术,反而积极鼓励其发展。他们认为,推广聚变能可以满足全球对清洁基载电力的需求,从而减少各国建设铀浓缩设施的动机,降低可用于制造核武器的材料在全球扩散的风险。

地缘政治

核聚变有望重塑全球能源地缘政治格局。当前,石油、天然气等化石燃料的地理分布不均,导致了能源依赖和地缘政治紧张。核裂变的燃料铀同样面临类似问题。

然而,核聚变的燃料氘(Deuterium)遍布全球的海洋中,任何国家都拥有获取燃料的途径。这意味着没有任何国家或组织能够垄断聚变燃料,也无法通过切断燃料供应(如关闭管道)来施加地缘政治压力。因此,在全球范围内部署聚变发电厂,能够将能源生产能力分散化,从而削弱能源在国际冲突中的武器化作用,促进全球能源安全和稳定。

极端情景

核聚变发电的安全性在极端情景下依然稳固。Kirtley介绍了一项为美国核能管理委员会(NRC)所做的分析,该分析模拟了“一颗陨石击中正在运行的聚变电厂”这一最坏情况。结论是,即使整个设施被瞬间蒸发,也无需疏散周边民众

其根本原因在于燃料量极低。一个聚变发电机在任何时刻内部仅存有约一秒钟的燃料。一旦燃料供应中断或设施被毁,聚变反应会立即停止。剩余的燃料(氘,即重水)会安全地回归环境,不会造成持续性危害。这与储存了数年燃料的裂变反应堆或大量煤炭的火电厂形成鲜明对比。

关于核废料,聚变反应本身会产生中子等电离辐射,使反应室的材料产生“激活”,具有放射性。因此,运行中的聚变设备需要用混凝土等材料进行屏蔽。然而,这种激活产生的放射性物质寿命相对较短。更重要的是,聚变不会产生像裂变那样的高放射性、长寿命乏燃料。美国政府已立法明确,聚变能将依据《联邦法规汇编》第30部分(Part 30)进行监管,该法规适用于医院的粒子加速器等设备,而非适用于核裂变反应堆的更为严格的第50部分(Part 50)。

核聚变的工作原理

实现核聚变的根本目标是创造并维持一个同时满足三个条件的等离子体环境:极高的温度(超过1亿摄氏度)、足够的密度(粒子数量)和足够长的约束时间。全球的聚变研究主要围绕如何实现这三者的最佳组合,主要分为以下几种技术路径:

  1. 惯性约束聚变 (Inertial Fusion):典型代表是激光聚变,如美国国家点火装置(NIF)的实验。它使用极高功率的激光在纳秒(十亿分之一秒)级别内瞬间轰击并压缩一个微小的燃料丸,通过巨大的压力和密度来引发聚变。

  2. 磁约束聚变 (Magnetic Fusion):其目标是将等离子体长时间(数秒甚至更长)地约束在强大的磁场中。

    • 托卡马克 (Tokamak)仿星器 (Stellarator) 是两种主流的磁约束装置,它们都采用环形(甜甜圈形状)的磁场结构,让等离子体在其中循环流动,避免其接触容器壁而冷却。
  3. 磁惯性聚变 (Magneto-Inertial Fusion):这是Helion公司采用的路径,它结合了前两者的特点。Helion的技术核心是一种被称为场反转位形(Field-Reversed Configuration, FRC)的等离子体。其工作流程如下:

    • 在一个线性的圆柱形腔体内生成磁场,并注入燃料气体形成等离子体。
    • 在微秒(百万分之一秒)级别内,迅速反转外部磁场的方向
    • 由于等离子体自身的惯性,其内部电流无法瞬间跟随外部磁场反转。这导致等离子体自我组织,形成一个独立的、闭合的、形如橄榄球的磁场结构,将自身约束起来。
    • 这个自约束的等离子体(FRC)随后被强大的外部磁场进一步压缩,使其温度和密度急剧升高,达到聚变条件。

FRC的一个关键特性是其高“贝塔值”(Plasma Beta),即等离子体压力与磁场压力的比值接近于1。这意味着磁场利用效率极高,但也带来了稳定性挑战。Helion通过一个被称为 S*/E 的参数来解决稳定性问题,该参数结合了等离子体的动能(类似陀螺旋转越快越稳定)和其几何形状(更长更稳定),通过精确控制实现了等离子体的稳定约束。

极端温度

达到1亿摄氏度意味着进入了一个与日常生活经验完全不同的物理世界。在这个温度下,物质处于等离子态,原子核与电子分离。如此高的“温度”不再是传统意义上的热度,而应被理解为粒子的宏观动能,即粒子以极高的速度(约每小时百万英里)运动。

在这种状态下,粒子间的碰撞变得非常稀疏,物质表现出“稀薄”特性。任何普通材料都无法承受与这些高能粒子的直接接触,因此必须使用磁场进行非接触式约束。整个聚变过程发生在微秒(百万分之一秒)的时间尺度上,这意味着从启动、聚变到能量回收,整个过程在人眼眨眼之前就已经完成。

聚变控制与仿真

由于聚变反应发生在微秒级的时间尺度上,人类操作员无法实时干预。整个过程必须由高速计算机系统自动控制。

  • 控制系统:Helion使用现场可编程门阵列(FPGA)等硬件进行底层控制,通过光纤以光速传输指令,确保数以万计的电子开关能够在纳秒内同步触发,精确地完成磁场反转和压缩等一系列动作。
  • 诊断与监测:系统内部署了大量传感器,如罗氏线圈和高速相机,通过光纤实时监测电流、等离子体形态和发光等关键参数,确保系统按预定程序运行。
  • 数值仿真:在实验前,团队会使用复杂的数值模拟软件来设计实验参数和预测结果。这些软件包括磁流体动力学(MHD)代码(模拟等离子体的宏观行为)和更精细的粒子-in-cell代码(模拟单个离子的行为)。目前,团队正在探索利用人工智能和强化学习来加速“仿真-实验-分析”的迭代循环,实现更智能的实时控制。

聚变发电

传统的聚变发电方案(如托卡马克)主要利用聚变产生的中子轰击反应堆包层,产生高温,再通过蒸汽轮机发电。这个过程的热电转换效率通常在30-35%左右,与传统火电或裂变核电站类似。

Helion采用的FRC方案则具备一项革命性优势:直接能量转换。其原理如下: 1. 当等离子体被压缩并发生聚变时,产生的大量带电粒子(如质子和氦核)会急剧增加等离子体内部的压力。 2. 由于高贝塔值的特性,这个巨大的内部压力会反过来推开外部的约束磁场,导致磁场膨胀。 3. 磁场的变化会在外部的电磁线圈中直接感应出电流,将聚变产生的能量以及输入的部分压缩能量以电能的形式回收,并为下一轮脉冲的电容器充电。

这种“直接回收”机制的效率极高。理论上,回收输入磁场能量的效率可超过95%,而将聚变产物能量转化为电力的效率可达80-85%。高效率不仅意味着更经济的电力输出,还大大减少了废热处理的需求,使系统可以设计得更紧凑。

为最大化直接能量转换的优势,Helion选择了氘-氦3(D-He3)作为主要燃料。与主流的氘-氚(D-T)反应主要产生中子(不带电,无法被磁场约束)不同,D-He3反应的产物主要是带电的高能质子和氦核,完美契合了直接能量回收的物理机制。

首座聚变电厂将于2028年建成

Helion公司秉持快速迭代的“建造者文化”,至今已建造了七代原型机。他们强调使用现有供应链、通用材料,甚至通过eBay采购二手设备来缩短研发周期,同时在内部实现关键部件(如电源)的垂直整合制造。这种务实且高效的工程方法论,支撑了其技术的快速进步。

2023年,Helion与微软公司达成了一项具有里程碑意义的购电协议,承诺在2028年前建成首座商业聚变电厂,并为微软的一个数据中心供电。这个明确的、具有商业约束力的最后期限,是推动整个团队前进的强大动力。尽管面临巨大的工程挑战和外界的质疑,Kirtley表示,团队坚信在物理原理上不存在不可逾越的障碍,当前的任务是解决工程和制造上的难题。

GPU集群的能源需求

随着人工智能的爆发式增长,大型GPU集群和数据中心的能耗已成为一个日益突出的问题。Kirtley指出,AI计算的成本最终将趋近于其电力成本。聚变能的几个特性使其成为未来AI数据中心的理想能源伙伴:

  1. 高能量密度:聚变电厂占地面积小,可以就近部署在需要大量电力的地点。
  2. 基载电力:提供稳定、不间断的电力供应。
  3. 直接直流供电潜力:由于Helion的系统直接产生直流电,未来有可能绕过电网的交直流转换环节,直接为使用直流电的GPU供电,从而大幅提升整体能源效率。

Kirtley认为,当前对数据中心电力需求增长的预测(年增4-6%)可能被严重低估。为了不让能源成为AI发展的瓶颈,加速聚变能的商业化至关重要。

卡尔达肖夫等级

卡尔达肖夫等级是衡量文明技术水平的标尺,主要依据其能够利用的能源总量。第一类(Type I)文明能够利用其母星接收到的所有能量,第二类(Type II)则能利用其母恒星的全部能量。

Kirtley认为,核聚变是人类文明迈向第一类文明的关键技术。地球上丰富的聚变燃料足以支持远超当前水平的能源消耗。能源的极大富足将解锁一系列前所未有的技术应用,例如: * 垂直农业:在高层建筑内进行集约化农业生产,将大量农田归还自然。 * 海水淡化:解决全球水资源短缺问题。 * 先进推进系统:如通过地面聚变电站向航天器发射微波束,实现无工质火箭推进,或为深空探测器提供持久动力。

费米悖论

费米悖论提出了一个深刻的问题:宇宙如此浩瀚古老,为何我们至今未发现外星文明的任何踪迹?对此,Kirtley表达了一种乐观的看法。他倾向于“马特里奥什卡脑(Matrioshka Brain)”假说,而非“大过滤器”或“黑暗森林”等悲观理论。

该假说认为,高度发达的文明可能不再追求物理上的对外扩张(如殖民星球),而是转向内部的认知和智能发展。它们可能会建造戴森球等巨型结构,利用整个恒星的能量来驱动巨大的计算系统,以探索思想和意识的无限疆域。从这个角度看,我们之所以看不到它们,是因为它们已经将活动重心从物质世界转移到了信息世界。Kirtley认为,聚变能与人工智能的结合,或许正是人类踏上这条演化路径的开端。

在访谈的最后,Kirtley感叹物理定律的精妙平衡,正是这种平衡使得生命和宇宙的存在成为可能。他表示,自己对聚变技术最终能成功实现充满敬畏和信心。