2025-08-31 20:33:00
原创 曲凯 2025-08-31 20:33 北京
散户崛起!
莫傑麟已经是第五次做客我们的播客了。从 23 年底到现在,我们差不多保持着每半年一次的频率,定期复盘中美 AI 的发展趋势。最近我又来了硅谷,也再次和傑麟聊了聊今年美国的 AI 进展,以及近期二级市场的牛市。
本期播客对谈原文约 30000 字,本文经过删减整理后约 10000 字。
曲凯:今年硅谷有什么新趋势?
莫傑麟:今年大家达成了一个新共识:AI 又进入了一个高速发展的阶段。
但硅谷出现了一个大转弯,就是 AI 的核心衡量指标,从「Scaling Law」变成了「Token 消耗量」。
今年最核心的叙事,就是 Token 消耗量在持续增长,而且增速惊人,比如七月就比六月增长了 20% 以上。这非常像移动互联网高速发展那几年里,流量、留存等指标的增长曲线。
在 Token 消耗加速的背景下,从最底层的 GPU,到模型,再到最上层的应用,整个行业都有新的发展。
目前消耗 Token 最多的,还是 OpenAI、Anthropic、xAI 等几家核心 AI Labs。再细分来看,增速最快的是这些 Labs 自有的应用,比如 ChatGPT 的日活、使用时长都在上涨,其次是很多 ToC 的生产力工具。
曲凯:所以大家现在会越来越多地用大模型。但今年美国的模型并没有明显变聪明,GPT-5 的评价甚至还褒贬不一,为什么它还是有不错的增长?
莫傑麟:这背后有一个很重要的认知迭代,就是大家对 AI 的预期发生了变化。
为什么大家从 24 年开始就一直很期待 GPT-5?
因为过去大家期待模型会不断突破智能上限,实现 AGI。
但从今年 1 月开始,大家更期待的是能在日常生活中用好现有智能,因为现有智能已经解锁了很多应用场景,而且大家的需求也很强烈。B 端希望 AI 可以解放生产力、降本增效,C 端则希望 AI 可以替代搜索、辅助工作等等。
所以无论是 AI Labs、Infra 公司还是应用公司,都在想办法让现有智能更可用,释放更多需求,衡量指标自然也就从 Scaling Law 转向了 Token。
不过不同公司关注的截面不一样,比如应用端主要看 Token 的消耗量,Infra 端更关注 Token 的利用率和成本。
其实你每期播客我都有听哈哈,我看你今年请了很多做 Infra 的创业者,他们做的事情就是让 Token 响应更快、更稳定、更精细化,甚至是把成本降下来。
GPT-5 本质上也在走这条路。它没有试图证明自己更聪明,而是把很多之前分散的模型能力、信息和前端界面都整合了起来,从而追求更好的可用性和易用性。
曲凯:所以 AI 已经进入应用阶段了?
莫傑麟:我觉得已经过了应用阶段,到了逐步产业化、加快工业化的新阶段了。
AI 完整进入应用阶段的标志是 Chatbot,最后一个关键更新是 Agent。
Agent 特别像移动互联网时代的 App,以前每个产品都需要一个 App,现在每个场景可能都要有一个 Agent。
但目前 Agent 的 Token 利用效率还不够高。比如我们用 Manus,经常发现 credit 很快就用完了。
那为了让 Agent 的使用体验更好,就需要去优化 Infra,让智能更好地落地。
曲凯:那如果大家不再讲 Scaling Law,是不是意味着 AGI 不重要了,或者说实现不了了?
莫傑麟:这点很有意思。今年大家对模型和应用的分工也形成了一个新共识。
模型的地位依然很强势。并不是说模型智能不重要了,而是它必须被封装进商业环境,或者和 Infra 结合,成为一体化的解决方案,真正提供商业价值和产品价值。
在应用层面,过去大家常常争论套壳有没有价值。但随着 RL 范式的发展,大家逐渐发现目前可被验证的使用场景并不多,所以现阶段更实际的做法是先通过产品让用户把模型用起来。比如 Manus 提出的 Context Engineering,就是一个从产品层面找到的切口。越来越多的人也认识到,context layer、agentic layer 本身也很有价值。
所以今年不同位置的玩家都会以 Token 消耗量为主轴去做事,各有分工。模型公司要让 Token 本身更有价值,Infra 公司要让 Token 的使用更快、更好、更省,而应用公司则会想办法让消耗出去的 Token 换回更多的数据反馈。
曲凯:但如果模型公司不再把精力放在 AGI 上,而转向整合和应用,这是不是一种不太健康的趋势?
一方面,应用端已经卷得厉害了。就拿 AI Coding 来说,美国甚至卷得比国内还狠。如果模型公司也下场,岂不是更卷?不过可能有 PMF 的事情还是太少了,大家看到一个能跑通的事情,不去做也不太现实。
另一方面,之前 OpenAI 之类的公司专注于提升智能,每次智能有突破,就会解锁更多能力,催生一批新的套壳公司。但如果今天模型公司不再追求智能提升,而是把有 PMF 的事情顺手做掉,那好像模型和应用之间的分工反而变模糊了?
莫傑麟:我觉得这反映了一个很有趣的变化,就是今天的公司和过去的公司不太一样。
以前我们习惯用一句话来定义一家公司,比如字节就是「App 工厂」。到了 AI 这波,大家也有这种惯性,想用一句话去定义各种公司,比如 Google 就是「有很强的技术人才储备」。
但在 AI 时代,技术和产品是可以逐步融合的,可能就没必要把分工划得特别清楚。
能融合到什么程度还不好说,但从逻辑上来说,应用可以提供一部分数据给模型,所以一些有企图心的公司一定会尝试既做模型,也做产品,甚至顺带做一些 Infra,把整个链条端到端地打通。
我们也确实能看到,今年 OpenAI 招了不少创业公司的 founder 进来做产品,Google 在应用端的发力也越来越快;Manus 本身就在做一些技术工作,Cursor 也开始训练自己的模型。
所以说,今年不同 AI 公司之间的边界变得很模糊。
曲凯:如果模型和应用公司能够互相促进,形成平衡,长期看当然是好事,但前提还是要看模型本身的能力能发展到什么程度。
比如 GPT-3.5 解锁了聊天能力,才有了 C.AI 这类产品;模型具备了 RL 推理能力,就出现了一大批 Agent 公司。这也是为什么我们最近在看多模态,因为如果多模态模型解锁了新的能力,未来就可能涌现出多模态时代的 C.AI 和 Manus。
不过现在回看,其实当时 o1 出来之后,大家都觉得模型好像没变得更聪明。
最近 GPT-5 发布,似乎大家也觉得它没解锁什么新能力。在你看来,GPT-5 有没有什么被低估的地方?
莫傑麟:我觉得很有。
首先评估模型智能水平这件事的重要性已经降低了。
今年 OpenAI、DeepMind 的模型已经拿下了 IMO 金银牌,说明我们其实已经没有太多合适的工具去评估模型的好坏了。
而且现在 AI 已经进入工业化和产业化的新阶段,在这个阶段,最关键的评估指标就不是智能水平,而是成本,因为在性能差不多的情况下,只有足够便宜,产业化才能加速。
另外,我觉得大家对模型的预期经常和模型本身的能力有偏差。
比如当时大家对 o1 的预期是它一下子能解决很多问题,但回头看,大家当时并不知道它解锁了什么能力,也不知道该怎么准确评估。后来大家才慢慢意识到,RL 范式在产品上最直观的体现,是模型更懂你、情商更高,降低了用户写 prompt 的门槛。
那么我个人认为,GPT-5 是一个非常重要的转折点。它标志着大家对 AGI 的预期被大幅修正,接下来拼的就是全栈能力和效率。
GPT-5 依然是一个不错的可用的模型,更关键的是它把模型拆分成了 Instant、Thinking 等不同模式,从而能够分开计价。从商业模式上看,GPT-5 已经明显进入了加速产业化的阶段。
曲凯:但这岂不是进入了国内创业者的舒适区?假设大家都开始拼整合、拼 Infra、拼工程,那 DeepSeek 不会比 ChatGPT 差,甚至可能更好。
莫傑麟:逻辑上是这样。
因为模型确实进入了一个瓶颈期。除非 Thinking Machines 能带来新的架构创新,否则大家基本已经接受模型架构就是这样了,智能提升主要来自各个环节挤出来的增量。
不过各个环节的增量叠加起来,依然有几十个百分点的提升空间,也还有围绕 Infra 的创新余地,所以今年几家 AI Labs 在 ASIC 上的研发速度都加快了,都在围绕 Infra 下功夫。
曲凯:对,我们刚跟亦博录完一期 Infra 主题的播客,和他聊完我才意识到,原来现在 Infra 这么重要、对模型的影响这么大。
比如之前大家都在讨论 DeepSeek 为什么这么强,亦博给出了一个特别好的答案,就是因为 DeepSeek 的 Infra 足够强、梁文锋本人也特别懂 Infra。
莫傑麟:我听了那期播客,我觉得亦博讲得非常好。Infra 的作用其实很直观,但做 Infra 优化的人还不多。
在我的理解里,Infra 优化可以拆成四层:
第一层是模型和 GPU 之间的优化,也就是怎么把卡用好。我理解 DeepSeek 就是在这一层做得特别好。
第二层是模型和应用之间的优化,现在主要体现为推理加速。以前模型公司会顺手把这件事做了,但今年有了一些初创公司的机会。因为 Anthropic 不再给 Windsurf 提供 API 之后,很多应用公司不想只绑定一家模型,而是会去找 Together AI 和 Fireworks 这样的中间商,然后顺便让它们帮忙做推理优化。不过推理加速的技术壁垒不高,很多东西还是开源的,所以这一层的毛利空间还存在争议。
第三层是纯应用层的 Agentic Infra。像 Sheet0 创始人文锋、雷磊在你们播客里提到过的就属于这一层。这一层做得好不好,会直接决定用户体验。比如你给 Manus 一个任务,它是只能跟你对话,还是能在前端直接调动一个优化好的模型帮你做事,用户感知差别会很大,消耗的 Token 也会完全不同。
第四层就是 context 层的 Infra。Manus CTO Peak 提到的 Context Engineering,讲的就是这一层的事。
曲凯:明白。所以未来一段时间里,模型会把更多东西整合起来,既包括已经验证过 PMF 的应用,也包括能优化 Token 消耗的 Infra。
在这个前提下,我自然会有个疑问:
为什么英伟达和一些 AI 公司还能涨得这么好?尤其是英伟达,它上一波大涨主要是靠 Scaling Law,现在大家都不讲 Scaling Law 了,为什么它还在涨?
莫傑麟:英伟达涨得好的核心原因,就是 Token 消耗量一直在增长。
英伟达的需求主要分两部分。一部分来自模型训练,尤其是 pre-training。这类需求有周期性,当模型或架构稳定后,训练用卡需求会下降。另一部分则是推理需求,来自用户的使用过程。这两种需求此消彼长,前者对应 Scaling Law 的逻辑,后者则对应 Token 消耗的逻辑。
现在 Token 的消耗越来越多,大家看到 RL 的进展、Meta 大规模招人后,对 pre-training 的需求也在回升。再加上英伟达在软件和售后服务上的优势,很多公司更愿意一站式地用他们的 GPU。各种利好因素叠加,英伟达自然还是会有不错的涨势。
但今年一些 ASIC 厂商,包括 AMD 的股价也表现亮眼。
这说明什么呢?
说明虽然英伟达依然强势,但市场和公司已经在思考怎么「节流」了。比如一些大公司会考虑在推理环节用 ASIC 或 AMD 来降低成本。而国内因为长期有卡脖子的问题,更是早已有不少替代方案。
这里面其实有一个赚钱的密码,就是大家只要解锁了 Infra 的变化趋势,可能就会在其中找到机会。今年很多英伟达产业链公司的涨幅甚至超过英伟达本身,就是因为它们是在 Infra 层做优化。
曲凯:你前面讲过 Infra 优化有四层,现在最核心的是哪一层?
莫傑麟:最核心的还是最底层,因为卡的价格依旧决定了所有事情的走向。但英伟达实在做得太好了,所以这一层的优化会是一个长期趋势,不会特别快。
曲凯:但像你说的,国外 AMD 等公司,国内的寒武纪、光模块企业也都涨得很好。那这个涨势能延续多久?
莫傑麟:逻辑上的延续性很强。大家都希望降本,也希望英伟达多几个竞争对手,至少在推理端有更多替代方案。
但关键还是要看个体公司能不能真的交付出东西来。硬件需要订单、预期和交付能力同时到位。在没到这个合力点之前,就算需求和预期再高也没用。
Infra 层还有一个很有意思的看点,就是推理加速这种事情,到底是第三方公司的机会,还是模型公司、应用公司自己就能做掉。
曲凯:但这个短期内应该很难看出来,相当长一段时间可能都会并行。
莫傑麟:是。不过这其中有一个转折点,就是现在该出现的 Infra 公司基本都出现了。所以我们也在观察这批公司里会不会长出下一个 Snowflake,或者出现一个嵌在 Palantir 里的 Snowflake。
曲凯:明白。你们今年还有看到什么比较有意思的应用吗?
莫傑麟:今年有两个点让我印象很深。
第一,RL 范式出来之后出现了一些变化。
一方面大家逐渐认识到,能给出准确 reward 的场景其实很有限,所以都争相去做 Coding、数学这些能明确验证效果的场景。
另一方面,大家也意识到很多场景依然需要人的介入,所以一些垂类公司发展得还不错,比如法律领域的 Harvey AI 就做到了很高的 ARR,医疗、金融、保险等领域也都出现了找到 PMF 的团队。这些团队借助模型去解决了一些行业 workflow、专用语言和使用环境等问题,真的把智能用了起来。
第二个亮点来自国内创业者。今年有一些国内团队解决了一部分模型和 context 之间的 Infra 问题,并且率先找到了场景,让消费者直接感受到了智能。比较有代表性的产品包括 Manus 、Genspark、Fellou 等等。
曲凯:今年美国二级市场上还有一些挺有意思的公司,比如 Meta 最近就超级火。你们最关注的几个点是什么?
莫傑麟: Google 和 Meta 这两家公司很值得研究。
Google 最值得研究的课题,是组织模式和技术储备等要素,究竟哪一个对 AI 发展来说更关键。因为大家一直认为 Google 有很强的全栈技术能力,但协作效率有问题。然而,Google 今年在文字模型、视频模型和机器人上都有所进展,依然能稳居行业前二。
这个课题很难回答,或许更适合国内的企业家去思考。因为他们经历过类似的大规模竞争,更容易理解什么才是决定性因素。他们也可以判断,如果 Google 真的能够改变组织模式,是不是有机会创造出更厉害的新东西?
Google 的问题和 Meta 也有所呼应。
Meta 当下争议最大的课题,就是砸钱招人到底有没有用。一部分人认为临时拼凑的团队缺少统一愿景,很难做出下一代模型。但另一部分人会觉得,Meta 招的人几乎都是各个 Lab 的顶尖专家,而且很多人都拥有丰富的一线工程经验。
曲凯:甚至很多人还有上镜经验,比如上过 OpenAI 的发布会(笑)。
莫傑麟:是的哈哈。所以这两个课题都非常有意思。
把它们放在一起看,可以看出一个趋势,就是大家今年的 FOMO 情绪不仅没有减弱,反而更强了。折射到行动上,就是各个公司从 23 年的「抢卡」,演变成了今年的「抢人」。
曲凯:但我觉得大家本来还好,好像是 Meta 靠一己之力把 FOMO 又带了起来。
莫傑麟:但是国内腾讯也在做类似的事。美国除了 Meta、Google,这半年里微软,甚至 ServiceNow 这样的公司,招聘动作也都很夸张。
至于为什么会这样,不同的人有不同的视角。
曲凯:所以你的视角是什么?
莫傑麟:我觉得是因为 AI 真的离产业化越来越近了。
我经常开玩笑说,现在的 AI 很像当年的移动互联网地推。过去靠地推把线下用户拉到线上,今天则靠 AI 把用户带进全新的场景。
所以那些有场景、有能力的公司,会更真切地感受到 AI 不是遥不可及的 AGI,而是能和自己的商业场景结合、贴近产业化的实在创新,那他们就会更坚定地去做判断和动作。
曲凯:明白。前面我们聊到,Token 消耗的叙事仍然带动了很多二级市场股票的增长。在我们录音的这两天里,国内也进入了一波牛市。那你觉得未来一段时间,二级市场的反馈会有什么变化?
莫傑麟:中美二级市场目前表面走势类似,但驱动逻辑完全不同。
AI 对美国整体景气度的影响占到三分之二以上,因为它决定了美国能不能在科技生产力上继续保持领先,进而影响各个产业的落地。
所以美股的走势相对更好判断,本质上取决于大家对 AI 发展的预期。过程中当然会有各种干扰和颠簸,但只要市场相信美国 AI 能持续领先,产业化、工业化在不断加速,那美股整体还是一个偏向上的局面。
中国这边则更复杂。
AI 对中国也很重要,但没有美国那样的决定性地位,因为中国宏观经济和二级市场情绪,受居民存款、投资意愿、风险偏好、制造业周期等多重因素影响,所以 A 股的表现更多反映的是大家心理预期和风险偏好的变化。
曲凯:我们先讲美国。我记得你提过一句话,说「AI 是美国所有资产里唯一的泡沫」。
莫傑麟:我现在依然这么认为。但这里的「泡沫」不是贬义,不是说 AI 是骗局、没有发展前景,而是说它的估值确实偏高。
曲凯:那比如之前英伟达到 3 万亿市值时,大家核心在验证的是模型能力能不能持续提升、Scaling Law 是否依旧有效。
现在有没有类似的待验证点,一旦被证伪,就会让市场的泡沫破掉?
莫傑麟:有两件事特别关键。
第一,Meta 为什么在这个时间点花这么多资源组建这样一个团队,以及他们能不能在 6 到 12 个月内做出更好的模型。
第二,会不会出现一些能稳定消耗 Token 的应用或场景。
美国现在有个词叫 Vibe Revenue,意思是用户知道 AI 有用,但并不清楚到底能用它干什么,所以现在很多产品的收入其实来自于用户过高的预期,甚至是跟风。
曲凯:所以你觉得以英伟达为代表的这些 AI 的 Beta,在美国二级市场会继续涨吗?
莫傑麟:会有波动。但在 Meta 推出新模型,或者发现 AI 没有真需求(如果那一天真会到来)之前,大趋势还是顺的。
曲凯:但国内二级市场的 AI 表达,更多还停留在芯片、Infra 上,比如寒武纪、英伟达的产业链公司等等。国内好像就没有 Meta、Google、微软这样的标的。
莫傑麟:其实有。
一开始大家认为最原生的 AI 公司是 DeepSeek 和字节,但这两家都没上市。今年大家找到的新标的是腾讯,过程中一度是阿里,但因为今年腾讯在 AI 上的努力程度和战略高度都强了很多,所以腾讯今年的股价也很顺。
曲凯:其实就还是大厂逻辑。只要一个大厂花钱了、让大家感觉到它在努力了,就会被列入到这类故事里面。
莫傑麟:也要看它有没有实质性进展。
其实这波 AI 的估值逻辑和移动互联网完全不同。移动互联网时代大家看的是 PMF、市场占有率和留存率这些指标。
但现在大家的商业和投研能力强了很多,不再只盯着现成的数据,而是会预判这项技术重不重要、这些人的执行力和视野是不是对的、这家公司是不是在正确的路径上等等。只要你的业务基础是健康的,市场就愿意给你希望。
这套逻辑今年在 Meta 和腾讯身上都得到了验证。
曲凯:所以这波 A 股到底是不是牛市?该怎么判断?
莫傑麟:这件事我相信谁讲都容易被打脸(笑)。
二级市场本质上是预期的投射。比如科技在美国市场之所以特别关键,是因为它代表着一种长存的预期,而且科技的毛利率也很高。
我记得 24 年初,我们录过一期关于乐观的播客。当时市场环境很悲观,但我们身边的创业者和大厂负责人并没有躺平,而是在积极向上、扎扎实实地做事。
到了今年,这批人真的找到了能比全球同行做得更好的事情,比如泡泡玛特、生物医药等等。
所以,从 24 年初到现在,我观察到的最大变化,就是 AI 已经从少数人相信的愿景,变成了真正落地的好产品,比如 DeepSeek、Manus、Genspark 等等。
那么牛市需要两个要素,一是要有一批优质公司能持续输出业绩,这一点从去年开始中国市场就具备了。二是市场的风险偏好在提高。要具备这一点,就需要市场能有正反馈,也就是大家能真正赚到钱。
曲凯:你发给我的那张有人拄着拐也要开户的照片,其实就印证了第二点哈哈。
莫傑麟:是的。其实这波波动里一个很重要的群体就是散户。
现在的散户和过去相比,手里有更好的投研工具,也能接触到更优质的信息。不论他们的判断对不对,研究散户本身也很有价值。
美国最优秀的投资机构是平台型资产,靠高周转获取收益。如果市场里全是高周转资金,或者全是跟随型量化,要形成牛市反而更难,因为资金都在博弈。
相比之下,散户往往更团结,尤其是高知散户,对一家公司会有更坚定的认知。比如特斯拉和 Palantir 就是典型的由散户推动起来的公司。
曲凯:但这跟很多人的认知是反的。很多人说国内市场波动大,正是因为散户占比太高,缺少长线资金,而美股机构资金占比高,所以更稳定。
莫傑麟:但这两年的二级市场和以前已经完全不同了。
确实,美国的长线资金占比很高,但这类资金周转非常慢,不会引发 6 到 12 个月周期的剧烈波动。现在市场的波动,通常是由机构、量化资金加上散户共同引起的。
不过,就像我前面说的,机构和量化资金大多是跟随型、博弈型,其中六七成都不够团结。他们会紧盯别人的预期,一旦判断这个预期有误,就会立刻进行反向交易。
而散户通常不会有太多博弈性动作。而且在美股这种「熊短牛长」的环境里,散户更容易形成自己的投研体系,并通过正反馈不断完善。比如,有人因为看好英伟达或特斯拉而赚到钱,就会逐渐形成一套自己的投资方法论。
所以这些散户对股票的选择很有借鉴价值。
以 Palantir 为例,我们一开始看好它只是因为订单充足,但如今它已经被推到了百倍以上的估值。这背后既有基本面的支撑,也有散户的贡献。
再回到 A 股是不是真牛市这个问题。我个人相对偏乐观,但这其中有一个重要的变量,就是中国的个人投资者,尤其是那些平均股龄二十年的老股民会怎么做。
A 股的牛市相对较短,熊市更长,散户很难建立稳定的反馈系统,往往刚做对一些事,市场就转向了。但老股民们即使不炒美股,可能也从美股中学到了不少东西。如果他们能把这些经验移植到 A 股,或许会带来很有意思的变化。
曲凯:这段很有意思。确实,A 股没有长牛,所以很难形成真正的正反馈闭环,大家更多还是一种猥琐发育或竞合关系的循环。
然后过去两年,美股 AI 板块表现最好的,基本还是那几只大票。你觉得未来会有什么变化?
莫傑麟:我们把模型和算力统称为 Infra。过去一段时间,市场一直在尝试从 Infra 切换到软件。因为大家的肌肉记忆是当 Infra 成熟之后,软件应用里应该会跑出一个大牛股。
但过去两年市场一直没太切过去,因为大家发现还是 Infra 公司手里有数据、有 demo、有顶尖人才,所以大部分交易热情还是集中在 Infra 上。最多是大家看完英伟达,再去看看它的产业链、投资标的,或者更便宜的芯片替代方案。
不过今年出现了一些值得关注的应用公司。
第一个是 Reddit。它有点像美国版的知乎 + 小红书 + B 站,而且没有被过度商业化,社区数据质量很高。现在 ChatGPT 就在高频使用 Reddit 的数据。我最近也经常在想,如果知乎或小红书本身也有很强的 AI 团队,会做出什么样的产品?
第二个是 ServiceNow。这家公司会帮企业梳理 Workflow,然后把能固化的部分做成软件交付。虽然起步慢,但他们凭借着强大的交付能力和工程能力,逐渐占领了用户心智,还拓展了一些 500 强客户,拿到的软件需求越来越多,现在的增长速度也快了起来。我很推荐想做美国 ToB 业务的创业者去研究一下 ServiceNow 的路径。
第三个值得关注的公司是 Figma。当年国内研究 SaaS 时,大家都很有热情地分析过一些 PLG 公司,比如 Figma、Notion 等等。这批公司如今几乎都是 AI 的赢家,而且它们的打法也契合华人团队在增长上的优势。
不过,大家对 Figma 的评价非常两极。一种声音认为它只是设计软件,技术不够先进,容易被原生 AI 产品替代。
但在我看来,设计本身离 AGI 就还比较远,所以 Figma 最大的优势在于它的协作场景。实际上,用户使用 Figma 的一大需求,是他们的设计师可能不在同一地点工作,所以需要通过 Figma 完成协作,甚至是制作一些模版。
另外,Figma 作为一个中生代公司,既有成熟的场景和资源,也有几百亿美元的市值作为人才和资本的保障。如果它能把 AI 真正融入协作场景,或许也能给其他几百亿、几十亿美元规模的公司提供一个参照。
曲凯:明白。二级市场我们已经聊得很全了,美国一级市场有什么值得关注的吗?
莫傑麟:今年美国一级市场最明显的现象,就是模型公司的估值越来越夸张。
像 Thinking Machines,一上来就是上百亿美元的估值,全明星团队加持。再比如 Scale AI 的收购,也进一步强化了大家对模型产业的信心。
当然,这些市场变动背后的过程很复杂,不能只看结果。但它们反映出了一个大趋势,就是 AI 的个体性极强,可能只有那 1% 最特别的团队,能拿到最多的钱。
而且确实有不少人通过二手份额,从 Scale AI、OpenAI 这样的公司上赚到了钱,这种正反馈又进一步加剧了市场对顶尖 AI 公司的追捧。
在我十几年的从业生涯里,从没见过第一梯队和第二梯队之间有这么大的估值差距。
我也很好奇,国内今年的融资环境也是接近美国这种局面吗?
曲凯:有类似的趋势,也有不同点。
美国的一级市场的一个优势就是它有一个非常好的生态,也就是一个健康的闭环。而国内一级市场缺乏这种生态,所以更多是单点击破,最终只有少数几家公司拿到最多的钱、赚到最多的钱,以及投中这几家公司的少数机构,也会赚到最多的钱。
然后最近一两年,国内一级市场有两个明显的变化。
第一,不可否认的是整个市场在往下走。虽然中间有起伏,但拉长时间线看,过去两三年和过去五年、十年相比,整体还是下行的。而且国内一级市场越来越像一个偏职能型的部门。它不再是驱动增长、带来大增量的引擎,而是一种必备的基础配置。
第二,两极分化越来越严重。因为 DeepSeek 和 Manus 的大火,今年 AI 的热度可能是去年的十倍,但从实际投资数量看,和往年差别不大,绝对没有十倍那么多,不过被投中的公司可能真的能拿到十倍的资金。结果就是大家仍然想投最好的团队和公司,而且这种两极分化的趋势目前看起来还会继续。
莫傑麟:最近美国一级市场还有一个很火的概念叫 Vibe Coding。Coding 成本越来越低,个体在早期验证 PMF 变得更容易、更便宜,所以很多原本做 VC 的人开始转去做孵化器或加速器,去支持各种「一人公司」。国内有类似的趋势吗?
曲凯:国内有人在做类似的事,也有人在支持独立开发者。
但我的看法可能和大多数人不太一样。
AI 的确会让未来公司的效率更高,需要的人更少,但这并不意味着会普遍出现「一人公司」。如果两个人能把事做得更好,为什么一定要一个人?关键还是要看组织结构和人效比,而不是执着于概念。
另外,大家经常会看到新闻说美国某个独立开发者一年能赚几百万美金,但国内这样的例子很少。我觉得一方面是因为美国生态更完善,能变现的钱更多,另一方面是国内很多独立开发者工程和代码能力很强,但在商业化和产品运营上的经验相对不足。
莫傑麟:我还有个好奇的问题。你接触张月光、曹越、小红他们这些创业者这么久,你觉得国内创业者怎么看 AI?他们遇到的最大困难是什么?
曲凯:我们接触的创业者状态差不多,都是越来越相信 AI 的前景。
至于困难,首先模型的竞合始终是个问题,就是怎么能更好地利用模型去做更好的产品,但又不会被模型的迭代吃掉。
第二是市场选择。很多公司现在首选出海,因为大家觉得 AI 成本太高,只有付费能力和意愿更强的市场才能覆盖成本。
但我觉得很多人对国内市场的悲观都是感性判断。如果你真正去拆解逻辑,会发现国内市场完全可做。因为长远来看,国内 Token 成本有可能降到接近零。到那个时候,大家完全可以重走移动互联网的路径,比如做大 DAU 的产品,靠广告赚钱,或者做社交产品等等。
所以中长期来看,我认为国内市场仍然有机会。
莫傑麟:我还有最后一个问题。我发现今年视频消耗 Token 的增速非常快,不仅增速远高于文字,绝对数量也很高。我们一直在研究,到底是哪些应用在拉动这波消耗。你有看到什么有意思的应用吗?
曲凯:我们今年年初发过一篇总结与展望,其中的各种预测都在逐步被验证。
我们在文章中提到过,今年的两大重点就是 Agent 和多模态。Agent 那波已经过去,接下来就是多模态,而多模态里最突出的就是视频。
不过,目前大多数 AI 视频产品还停留在特效、剪辑,或者图片转视频阶段。这些方向虽然可能会消耗很多 Token,但还称不上是真正的多模态原生应用。
我们真正期待的,是当像 Veo3 这样的模型变得更好、更便宜时,会不会出现类似 Manus 的现象级产品。它也许是一个多模态原生的内容社区,也许是一个多模态推理产品,甚至可能是类似世界模型的探索性应用。
一旦这样的产品出现,可能就又会带动一波长达半年甚至更久的浪潮。
【莫傑麟 @ 42章经文字稿 & 播客回顾】
2025.3《世界怎么就「东升西落」了?聊聊二级市场与 DeepSeek+Manus 的热潮》 (推送文字稿传送门)
2024.7《上半年 AI 市场有多差?为什么机构出手这么少?》(推送文字稿传送门)
2024.3《英伟达、Sora 与 AI 的三种核心叙事逻辑》(播客传送门:https://www.xiaoyuzhoufm.com/episode/65e34a65da891a9cd9bf90f2)
2023.12《为什么我们开始乐观?关于经济发展的明线暗线、AI 与最佳实践》(播客传送门: https://www.xiaoyuzhoufm.com/episode/656aeffd0500be931c4eb099)
最后,莫傑麟团队最近在做一个叫 WhatIf 的项目,希望把更多投研经验与 AI 实践结合起来。他们定期组织商业和投资的 Panel 讨论,如果你对中国和美国 AI 基础设施和应用公司研究有持续稳定的视角,且对宏观/二级市场策略感兴趣,可以在公众号「WhatIf Ideas」中提交注册信息,通过后加入讨论日历名单。
42章经
思考事物本质
2025-08-10 22:02:00
原创 曲凯 2025-08-10 22:02 北京
Agent 之后,多模态能否成为下一个风口?
在 Agent 热潮之后,我们认为多模态,尤其是视频生成领域将出现下一个风口。
那么,AI 视频如今究竟发展到了什么程度?底层模型能力有哪些新突破,未来又可能出现哪些变化?与此同时,随着赛道竞争日益激烈,新入局或者想入局的人,在产品和增长上又该如何决策?
带着这些问题,我们将在下周六(8 月 16 日)上午 10:30 举办一场线上交流活动,Luma AI 模型产品 Lead 戴高乐、爱诗科技联合创始人谢旭璋、前 OpusClip 增长产品负责人谢君陶,会从模型、产品、增长三个关键维度,分享他们在 AI 视频一线的实战经验与思考。
具体报名信息请见上方海报。本次线上活动限 100 人(非投资行业),我们会优先通过回答更认真、与我们背景更匹配的朋友。最终参会资格以工作人员通知为准。
期待和大家见面!
2025-08-10 22:02:00
原创 曲凯 2025-08-10 22:02 北京
内含 Deepseek 成功的真正答案
本文嘉宾朱亦博可以说是国内最了解 AI Infra 的人之一,从微软、字节 AI Infra 负责人到谷歌、再到阶跃联创,他的职业经历几乎和 AI Infra 的发展并行。
本期播客对谈原文约 19000 字,本文经过删减整理后约 7000 字。
曲凯:从你的视角来看,怎么理解 AI Infra?
亦博:AI Infra 包括硬件和软件两部分。
硬件是指 AI 芯片、GPU、交换机等设备。软件层面我喜欢用云计算来类比,可以分为三层:
最底层类似 IaaS,解决的是最基础的计算、通信和存储问题。
中间一层类似 PaaS,包含资源调度、资源管理等平台。MaaS(Model-as-a-Service)就归属这一层。
最上层近似 SaaS 应用层,但在 AI Infra 领域,我更倾向于把这一层理解为训练及推理框架的优化层。
曲凯:可以说你的职业生涯跟 AI Infra 的发展基本是同步的吗?
亦博:是,但我其实是第二批 AI Infra 人,第一批是贾扬清、李沐、陈天奇这些有算法背景的人。他们当时要做先进的算法,需要充分利用 GPU,于是就做了 AI Infra。
曲凯:所以是第一批人从无到有把这件事做了出来?
亦博:可以这么理解。我们这第二批人干的更多是上规模的事情,让 AI Infra 在工业界得到应用。
曲凯:那大模型这两年的兴起,对 Infra 从业者来说应该是一个特别好的机会吧?因为 AI Infra 一下子进入了主舞台。
亦博:确实如此,这也是为什么我觉得一定要出来创业。
过去 Infra 人才很难参与到一个公司的初创过程中,因为 Infra 服务于上层应用和数据处理,只有当业务规模足够大时,对 Infra 的需求才会凸显。
但是大模型确实带来了一个非常好的机会。
上一次类似的节点,是搜索引擎刚刚兴起的时候。比如 Google 当年面对的是规模空前的互联网数据,而要处理这些数据,它就需要世界一流的 Infra。所以从某种程度上讲, Google 本质是一家 Infra 公司,它的成功从一开始就离不开它强大的 Infra。
而如今,大模型一上来就对算力和数据提出了前所未有的要求,所以我认为现在是 Infra 从业者真正进入核心舞台的少有机会。这样的窗口,可能十年、二十年才会出现一次。
曲凯:那移动互联网的 Infra 和 AI Infra 有哪些异同?
亦博:它们的底层目标是一致的,就是要高效稳定地整合计算、通信和存储资源。
但在实操层面,它们对硬件、网络互联、存储方式的要求都完全不同。比如,AI Infra 的绝对核心是 GPU,而传统 Infra 的核心是 CPU。
在 Infra 的世界里,太阳底下没有太多的新鲜事,但 AI Infra 在很多方面要做到更极致、更贴合 AI 的特殊需求。
曲凯:那在这样的背景下,未来做 AI Infra 的人,更多会是新一批成长起来的工程师,还是由传统 Infra 人转型而来的?
亦博:我觉得都会有。这方面 Infra 和算法很不一样。
算法非常依赖年轻人。甚至我有做算法的朋友说过,算法人只有两年的保质期,两年后 Ta 把自己的聪明才智发挥完了,就会陷入思维定势,反而跟不上后面的新东西了。
但 Infra 相对来说更强调积累。
曲凯:那你们关注的核心指标有哪些?
亦博:比如在线上服务侧,我们会看模型响应的首字延迟、后面吐字是不是稳定顺畅、整体的成本能不能降低等等。在训练侧,我们主要看每张 GPU 能处理的数据量和训练效率。
曲凯:听起来是不是只有规模很大的公司才需要用到 AI Infra?
亦博:其实所有的产品都依赖 Infra,区别在于你要不要投入成本去做自己的 Infra,以及这种投入对你的业务来说值不值得。
这笔账其实很好算。
假设你有 1 万张 GPU,每月租金 1 个亿。如果你雇了一批 Infra 工程师,能把 GPU 利用率提升 10%,那你每月就能节省 1000 万,或者说多赚 1000 万。
那你愿意为了这 1000 万投入多少人力成本?
无论是在前司还是现司,我们优化 Infra 之后省下的钱,都可以很轻松地 cover 这部分的人力成本。从这个角度来说,投入 Infra 是可以帮公司挣钱的,而且这件事的确定性很高。
对于一些较小的公司来说,也可以用同样的逻辑进行计算:你值不值得雇 10 个人来优化百分之多少的性能?
你可以对比一下,要做到同样的优化效果,云厂商的标准化方案需要多少钱。如果你自己做不到更低的成本,那就说明用 MaaS 或公有云服务更划算。
这也是现在这些服务商的价值锚点:帮助规模较小的公司节省 Infra 优化的成本。
曲凯:那按理说,Infra 这件事应该是云厂商和模型方做到极致了才对,为什么还有一些第三方公司在做?
亦博:短期来看,第三方的价值,是为客户提供一个「API 集贸市场」,让他们自由选择不同的 API,因为模型厂商的 Infra 主要服务于自家的模型或 API。虽然有些公有云也在提供类似的服务,但还是有第三方的空间。
不过长远来看,如果第三方公司没有独特的价值,确实很容易被云厂商或模型公司吃掉。
那突破口在哪里?我是这么思考的:
AI Infra 的底层是硬件,上层是模型。当硬件和模型都逐渐趋于开放和普及时,只做中间那一层 Infra 的价值确实会很有限,而且会非常卷。因为说白了,没人能在 Infra 这一层拉开特别大的技术差距,也很难形成长期壁垒。你今天领先一点,几个月后可能就被赶上了。
所以我认为,第三方想做出壁垒,就得和硬件或者模型去做垂直整合。
以 MaaS 的生意为例。MaaS 可以看作是一个 API 的分发平台,除了标准 API 之外,真正能留住用户的,是那些别人没有的东西。
就像你为什么要买 PS5?是因为这个游戏机上有一些独占的游戏。
同理,有的 MaaS 服务商与特定的硬件厂商有深度合作,能以更低成本获得算力资源,同时它还有对硬件的独到见解,那这些就是它的差异化优势。
所以这里可以给从业者一个建议,就是不要做夹在模型和硬件中间的那个人。
我现在选择站在模型这一侧,你也可以选择站在硬件那一端。
这是因为 AI Infra 有个非常独特的背景,就是当前是硬件和模型都在追求极致的时刻。如果有人想做出像 DeepSeek 那样在硬件上跑得非常有效率和性价比的模型,就需要既懂硬件又懂模型。而这种「两头通」的能力,恰恰是 Infra 人的特长。
所以,如果你愿意迈出这一步,往上和模型做深度整合,或往下与硬件做 co-design,就有很多机会。但如果你固步自封,只在中间做优化,那确实就把路走窄了。
曲凯:但和模型或者硬件绑定之后,万一最后发现选错了怎么办?
亦博:所以关键在于你必须是主动的参与者,而不是被动搭便车的人。
如果你比硬件厂商更懂模型,那你就可以影响硬件的设计方向。如果你比模型团队更懂硬件,也可以反向影响模型架构的设计。
当你具备了这种影响力,成功了当然是共赢,即使失败,那也是你主动做出的判断和选择。
曲凯:明白。
我们前面讲的主要是 Infra 降本增效的事情,那实际上它对模型最终的训练效果到底有多大的影响?该怎么评判?
亦博:Infra 水平确实会影响模型的效果,这也是为什么 Infra 对大模型公司而言非常重要。
其实各家公司都在参与同一场比赛,就是「给定算力,怎么训出最好的模型」。
假设大家都拿 5000 张卡,在其他条件相同的前提下,如果我的 Infra 优化得更好,效率高出 20%,那在同样的时间里,我就能多学 20% 的数据,训练出的模型自然也会有更好的效果。
曲凯:所以 Infra 是有标准化的性能指标的?
亦博:对,比如 MFU 就是一个比较常见的指标。它衡量的是硬件利用率,分子是实际完成的浮点运算次数,分母是理论最大算力,MFU 越高,说明硬件被用得越充分。
曲凯:我记得当时 DeepSeek 公开了他们的 MFU?
亦博:实际上 DeepSeek 的 MFU 是偏低的,但你也不能说他们的 Infra 做得不好。
衡量 Infra 的性能其实很复杂,仅靠单一指标很难判断 Infra 的优劣。Infra 的性能和硬件、模型,还有优化目标都密切相关。
其实 DeepSeek 之所以能冲出来,一大原因是选对了优化目标。
当时 DeepSeek 的优化目标和其他所有人都不一样。比如我们当时的优化目标是「给定训练算力,怎么训出最好的模型」,而 DeepSeek 的目标是「给定推理的成本,怎么训出最好的模型」。
至少在 24 年上半年时,DeepSeek 的基模并不比大家强。
那这个局面什么时候扭转了呢?
就是在 24 年 9 月 o1 发布之后。
o1 让大家看到,如果在推理阶段让模型多思考一会,模型最终输出的效果会更好。这种训练方式,正是强化学习的典型机制。而因为 DeepSeek 的优化目标更符合强化学习的需求,所以他们能以更低的推理成本、更快的速度去输出结果和训练模型。于是他们率先完成了 R1,一下子甩开了其他团队。
你可以说 DeepSeek 的成功有一些运气因素。他们最初在设定优化目标时,大概率也没料到 Test-Time Scaling 会在 24 年下半年变成关键趋势。但很多事情的成功,靠的就是天时地利人和。
所以说回来,Infra 确实有各种性能指标,但如果想取得好的结果,最重要的是你要想清楚,哪一个指标的优先级最高。这个指标不仅要符合你的产品需求,也要顺应整个行业的发展方向和未来技术趋势。
不同团队的技术水平固然有高低之分,但真正拉开差距的,往往是有没有选对努力方向。
曲凯:所以当下有比较通用的第一指标吗?
亦博:这件事还有很多非共识。
其实从 o1、 R1 验证了强化学习的路径之后,我认为当前最重要的指标就是 decoding 的速度。
推理分为输入和输出两部分。输入的关键指标是模型处理长文本的速度,输出的关键指标则是模型吐字的速度。我认为现在最重要的指标是后者。它决定了线上业务的成本,也直接决定了强化学习的效率。因为如果你输出很慢,那你获得 reward 的速度就比其他模型要慢。
但现在还有人很看重 MFU 之类的老指标。在我看来,还特别关注这类指标的人,对当下技术的认知是有问题的。
曲凯:你前面有提到,Infra 人是既懂硬件又懂模型的人,那算法人是什么样的?二者该怎么合作?
亦博:最理想也最简单的合作方式,就是大家像一个团队一样,为共同目标协作。
很多事情都有 trade-off,比如有时损伤系统性能,但能换来算法上的提升,有时候则是反过来。遇到这些情况,最好是两边能一起讨论该谁来让步。
不过这是小团队的优势。在很多大厂里,很难实现这一点。
在大厂,Infra 总被视为支持性的角色。很多时候是算法人给 Infra 人提需求,但是 Infra 人没有反向的影响力。
曲凯:对,而且在很多人眼里,Infra 的核心就是「降本」,但「降本」通常不是一个最优先的目标。
亦博:这正是我认为需要被纠正的观念。前面提到过,Infra 实际上是可以对模型效果有正向影响的,而不仅仅是只能降本。
曲凯:听起来就是要 Infra 人发挥主观能动性?
亦博:还不够。比如你带一个 Infra 团队,另一个人带算法团队,大家向同一个 leader 汇报,但这个 leader 只懂算法,那你猜会发生什么?
所以很多问题到最后都是组织架构的问题。
模型其实由算法、Infra 和数据这个铁三角决定。三者缺一不可,必须协同。
但很多人对模型的理解存在偏差。比如,一个模型的算法效果往往取决于数据,而不是算法;一个模型的效率成本主要由 Infra 决定,也不是算法。
所以实际上比较合理的组织架构是,让 Infra 人去设计模型结构,因为 Infra 人最知道该怎么提高效率、节省成本,让数据的人去负责刷模型的点数和 benchmark 分数,因为他们最懂怎么喂模型,而算法人应该主要负责训练的范式革新。
曲凯:听起来很合理啊,现在很多团队不是这样的吗?
亦博:不是。现在在很多团队中,基本都是算法人在设计模型结构、刷模型点数。但实际上算法人不一定最适合做这些事。
曲凯:所以阶跃从一开始就在用最正确的方法吗?还是也踩过一些坑?
亦博:当然也踩过坑哈哈。比如我们一开始对自己的算力和能力都过于自信,所以干了一个比 Llama 还大的模型。虽然我们把它训出来了,但是这个巨大的模型有一些问题,过程中我们也犯了一些错误。
但我觉得这也没什么。你赌的所有事情就是可能会错,踩过坑之后再爬起来往前走呗。这一局输了,那下一局我再干回来。
曲凯:还有什么业内真实的踩坑案例吗?
亦博:比如最近有家公司开源了一个模型,声称自己虽然参数量不大,但因为算法做得好,所以效果可以越级媲美更大的模型。
但这个模型因为架构设计的问题,实际运行效率非常低,甚至还不如那些大模型快。
这背后反映的问题是,其实很多做算法的人并不真正懂硬件,也不了解模型在 Infra 层是怎么运行的。
算法人员做模型架构研究的时候,可能会画一张图,横轴是模型的尺寸或激活量,纵轴是某些算法效果指标。然后他们会试图在这张图上找到一个 sweet point,能让模型在尺寸不大的情况下,算法效果还不错,然后就丢给 Infra 人去做优化了。
即便 Infra 人能满足算法人的需求,模型实际运行起来也会出问题。
如果真要画图,横轴应该是模型的实际运行成本或运行效率,纵轴是模型效果。你得跑大量实验,才能在这张图上画出各种点,然后在其中找到那个真正可落地的最优点。
而这件事情只有在拉通所有团队之后,才有可能完成。
曲凯:是。模型这边上一个 Aha Moment 仍然是年初的 DeepSeek。虽然最近一直有传言说 GPT-5 要发布了,但到底什么时候发、表现怎么样,还没人说得准。而且很多人一直在说 scaling law 撞墙了、数据不够了等问题。
那你怎么看未来模型的发展?
亦博:模型范式的革新不会那么快,但多模态还是有一些突破的可能性的,尤其是多模态生成和理解的统一。
现在多模态的状态,其实挺像 20 年的 bert 模型,就是具备了理解能力,但还没有真正做通理解和生成。
做通的标志,是同一个模型在理解任务上能超越专门做理解的模型,在生成任务上也能击败专门做生成的模型。就像 GPT-3.5 出来之后,直接让很多做翻译之类的专用模型退休了一样。
曲凯:Google Veo 3 的效果看起来已经很不错了。
亦博:但 Veo 3 还是偏上一代的模型,核心是做生成。只不过它的工程做得比较好,把配乐之类的各种功能都很好地融合了起来。
其实技术突破和产品效果并不是线性相关的。Veo 3 确实把上一代的技术发挥到了非常强的水平,但它本身并没有带来太多范式上的创新。
曲凯:明白。那你觉得对于初创或者第三方的 AI Infra 公司来讲,机会在哪?
亦博:我个人觉得训练侧的商业模式不太成立。因为现在训模型的人都非常懂行,所以你很难挣到这些人的钱。而且他们也不太愿意把训练过程中的研发细节交给第三方,否则就泄露了自己的核心竞争力。
排除训练之后,推理侧还是有一些机会的,比如推理加速、推理优化。
曲凯:那开源模型对 AI Infra 市场来讲会有什么影响吗?
亦博:整体而言,开源模型对 AI Infra 的发展是有促进作用的。因为一个开源模型火起来,大家就会去研究怎么把它跑得更好,这个过程其实就促进了 AI Infra 的进步。
但所有事情都有两面性。如果某个开源模型太火,然后大家都花很多精力去优化它,可能反而会影响创新。比如 DeepSeek 出来之前,很多人都在优化 Llama,结果 DeepSeek 的新范式一出,之前大家在 Llama 上的很多积累就废掉了。
这里我还想再补充一点。现在的 Infra 基本都是围绕英伟达卡来做优化的,虽然也有团队尝试用国产芯片替代英伟达,但很多时候国产卡不是跑不动,而是性价比不如英伟达。
举个例子,当 DeepSeek 这样非常好用的开源模型出现之后,一些做一体机的公司会发现,他们用英伟达卡跑 DeepSeek 就是比用国产卡更有性价比,所以他们就更愿意选择英伟达的卡。
但我们非常希望国产卡在技术层面也能具备竞争力。比如,是不是可以根据国产卡的特性去专门设计模型结构,让它在国产卡上也能高效运行,并达到 SOTA 水平?
我们最近开源的 Step 3,就是在这个方向上的一次实践。Step 3 是国内首个支持第三方商用的、数百 B 规模的视觉推理模型,并且能跑出 SOTA 水平。
曲凯:怎么理解视觉推理?
亦博:视觉推理就是模型可以根据图片、视频抽帧等视觉信息,直接完成推理任务。
比如,你让机器人去柜子里拿一个东西,但那个目标物品被杂物遮挡住了。这时机器人要完成这个任务,就要进行视觉推理,来进行任务的拆解和决策。
对于机器人或者手机、汽车等智能设备来说,它们天然就有视觉这个模态。那么根据周边的环境、看到的东西去决定怎么完成复杂任务的过程,就是典型的视觉推理模型做的事情。
视觉推理模型还有一个更常见的应用场景,就是拍照解题。
曲凯:这件事之前也有一些模型可以做到,它们应该就是把图片转成文字,再去做文字推理。
亦博:但我认为这种方式不是真正的视觉推理。我们现在不需要中间那段转文字的过程,而是让模型好似真的能看懂图片,然后直接看图推理。
还是举刚才那个让机器人拿东西的例子。如果你要拿的那个目标物品周围有很多遮挡,你其实很难用文字把它们在物理世界中的位置关系描述清楚,也会丢掉很多信息。
但如果模型直接看图,就能很直观地知道应该先把这个东西拿开,再把那个东西拿开,最后拿到目标物品。
曲凯:明白。那你们为什么选择开源?
亦博:我们希望做到全国上下产业都获益。
我们决定给所有国产芯片一份免费商用的授权,开放模型权重,并且尽量帮他们做好模型适配。同时我们也把 Step 3 在国产卡上的推理成本压到了一个很低的水平,提高了国产卡在性价比上的竞争力。
通过开源,我们希望能够帮助国产芯片构建商业竞争力,也希望他们能推广我们的模型,最后实现共赢。
曲凯:我突然想到一个问题,就是多模态模型的成本未来到底会以什么速度下降到什么程度?因为现在多模态还是太贵了。
亦博:多模态理解现在已经不算贵了,不过生成还是挺贵的,尤其是视频生成。
但我对成本降低还是蛮乐观的。我觉得一年后,应该能下降很多,能不能到十分之一不好说,但几分之一没问题。
曲凯: 你觉得现在做 Infra 的人在很多公司里,是不是还是容易被低估?
亦博:在大模型时代,这种情况已经好很多了。现在 Infra 已经是模型能力的核心组成部分之一。
之前也有人说过,DeepSeek 做得好就是因为梁文锋是 Infra 人。
曲凯:这怎么讲?
亦博:因为梁文锋是做量化出身的,而量化很强调低延迟,所以他需要对 Infra 有研究。在算法、数据和 Infra 之间,他可能最擅长的就是 Infra。这在业界也算是共识。
而且据我所知,DeepSeek 的 Infra 工程师数量比算法工程师要多。
但在很多大公司里,这个情况是反过来的。这可能也是在过去一段时间里,一些大厂比较挣扎的原因之一。
其实在大模型快速发展的阶段,就是需要有大量的 Infra 人,来把硬件设计和模型优化做到极致,并且做好垂直整合。但在大厂里,他们的人才结构是错配的,不符合做好 AI 的本质需求。
曲凯:明白。最后,你会给正在做或者想转行做 AI Infra 的人什么建议?
亦博:前面有提到过,我的建议就是靠近模型,或者靠近硬件。
另外,希望你还是打心底对 Infra 感兴趣,有足够的主观能动性去做各种各样的 co-design。
最后我想再补充一点。我最喜欢的一篇文章就是 Richard Sutton 的《The Bitter Lesson》。文中的核心观点是,从长期来看,胜出的永远是那些能最大程度利用计算资源的方法。短期内各种奇技淫巧可能有效,但都不能本质地解决问题。
虽然这篇文章是从算法视角写的,但对 Infra 人也同样有很重大的指导意义。因为我们最根本的任务,就是设计出能发挥硬件全部性能的模型和系统软件,让模型能充分利用这些资源。
当然,我最希望的是也许有朝一日,我们还能反过来影响硬件,换取摩尔定律的不断延续。
42章经
思考事物本质
2025-06-29 22:49:00
原创 曲凯 2025-06-29 22:49 北京
Agent Infra 这个赛道才刚刚开始,遍地是黄金
本文来自 Grasp 创始人雷磊的播客及分享,有删减。
曲凯:Agent 今年这波热潮其实是 Manus 带起来的,到现在为止,各种 Agent 大家已经投得不少了。那下一个热点可能在哪里?
我们觉得可能是 Agent Infra。
正好雷磊现在做的 Grasp 就是一个给 Agent 用的浏览器。你是怎么想到要做Agent Infra 的?
雷磊:首先,我相信未来 Agent 的数量会不断增加,至少会达到现在 SaaS 数量的几千倍。
而且 Agent 能直接交付结果,因此它其实就是一个数字员工,我们应该把它视为像人类一样的终端用户。但因为 Agent 与人类的形态截然不同,所以当下互联网的很多基础设施都是不适合 AI 使用的,都需要为 Agent 重构一遍。
那基于这两点,Agent Infra 就是一个非常大的市场机会。
曲凯:那未来 Agent 和人类到底会怎么协作?你提到说 Agent 和人类完全不同,具体有哪些体现?
雷磊:现阶段大家普遍认为 Agent 是为人类服务的,但在我看来,未来应该是人类为 Agent 服务,因为 Agent 拥有更高的带宽,能够接触到比人类更多的知识和信号。(当然,人类和 Agent 并不完全对立。)
在这个服务主体转移的过程中,人类和 AI 的行为模式确实存在区别。
第一个区别在于交互方式。
人类的交互主要依赖视觉,因此为人类设计的产品需要一个前端界面,而 Agent 则可以通过文本和多模态在后端实现交互。
第二,人类和 Agent 的学习方式也不同。
人类无法同时「做事情」和「学东西」,因为这两者涉及到大脑的不同区域。但 Agent 却可以通过强化学习,在执行任务的同时进行学习。因此,为 Agent 设计产品时,至关重要的是设计一套奖励机制。
举个例子,当你使用浏览器时,系统不会频繁弹出窗口来评价你的操作是否正确。但如果是为 Agent 设计的浏览器,就需要时时提供 +1 或 -1 的反馈,只有这样,Agent 才能不断提升操作能力。
第三个区别是单线程 VS 多线程。
人的工作模式是按照 workflow 逐一完成,而 AI 可以在多个节点同时跑很多任务。
在计算机领域,有一个类似的对比:人类的工作模式很像「贪婪算法」,总是关注局部最优,而 AI 的模式则很像「动态规划」,始终追求全局最优。
不过这也引发了一个问题:当 Agent 并发执行任务时,该怎么保持不同任务的状态?
对于人类来说,上一个任务的结束就是下一个任务的开始,因此天然不需要去保持状态。
然而,Agent 在一个节点上可能同时执行 100 个任务,这些任务的执行速度各异,有些快,有些慢,甚至有些可能需要人工干预,所以需要设计一种新的机制保证 Agent 能高效稳定地在不同任务间切换和协调。
第四个区别是责任界定的问题。
人可以为自己的行为负责,但谁来为 AI 的行为负责呢?这也就引申出一个问题,就是怎么划分 Agent 所处环境的安全边界。
比如你手里有一段代码,如果这段代码是你自己写的,你当然可以接受这段代码直接在你的电脑上运行,因为出了问题你可以负责。
但如果这段代码是 AI 生成的呢?如果运行之后,你的文件全丢了,谁来负责?
为了解决这个问题,AI 执行任务时最基本的要求就是要有一个「安全围栏」(类似于大家都在讲的沙盒),来把 AI 所产生的影响控制在一定范围内。
这个安全围栏并不是要一刀切地限制住 Agent 的能力,而是要动态判断哪些任务和信息可以交由 Agent 处理,而哪些不能。
一个典型的例子就是 E2B。
曲凯:对,E2B 这个产品现在在美国很火,但我估计国内很多人可能还不太知道它。能不能给大家再介绍一下,E2B 到底是啥?
雷磊:其实 E2B 的火爆,很大程度上是靠 Manus 带起来的。
简单来说,E2B 就是给代码运行提供了一个安全又快速的沙盒环境。
曲凯:那如果未来 Agent 的运行环境都在云端,到时候是不是云厂商的股票能涨得更好?
雷磊:单凭这点来说是的。因为云厂商的机会来自于大家对资源的需求,如果我们未来会消耗更多的资源、产生更多的数据,那云厂商就是会更值钱。
但很关键的一点是这些云厂商得顺应时代潮流,否则很可能会被赶超,以至于被历史淘汰。
曲凯:所以你甚至会觉得 AI 时代有个新的云厂商的机会吗?
雷磊:对,在我看来 AI 环境这件事就是一个 AWS 级别的机会。
曲凯:但我听下来,E2B 本身好像也没做太多事情,那 E2B 和云厂商的关系未来会是怎样的?
雷磊:云厂商更多扮演的是基础设施的角色,比如说我们构建一座房子,云厂商有点像提供水电资源的地产商,而 E2B 则是负责将这些资源交付给住户的装修商。底层肯定还是由云厂商提供最基础的算力,而中间这一层像 E2B 这样的 Infra,提供的就是能让 Agent 真正运行的环境。
曲凯:这个例子很妙。但很多地产商后来都开始拼装修好的商品房了,那是不是未来一些云厂商也会自己做 Agent Infra 的这些事情?或者至少 E2B 是一个很好的被收购标的。
雷磊:这是一个很有意思的问题。在什么情况下地产商会去卷商品房呢?
就是当市场容量不足,仅交付毛坯房的竞争力不够时。
但 AI 市场的增长空间很大,所以我觉得在这个阶段云厂商和 Agent Infra 公司应该合作,想办法把蛋糕做大,而不是过早地去考虑怎么分蛋糕。
包括 Agent Infra 公司之间也应该如此。因为这个市场足够大,所以能容纳很多家公司、去提供不同的解决方案。
举个例子。E2B 有一个竞对叫 ForeverVM。E2B 主打的是「安全」,ForeverVM 主打的则是「状态」,也就是确保 Agent 在执行多个任务时,即使反复横跳,也不会丢失之前的进度。
曲凯:明白。其实最近美国那边给 Agent 做的产品有两个典型,一个是 E2B,另一个是 Browserbase。讲完 E2B,我们再讲讲 Browserbase 吧,正好你们现在在做的也是与 Browser Use 相关的事情。
雷磊:Browserbase 也算是现在的一个当红明星了,从融资额也能看出,它的估值在一年内涨到了 3 亿美金。
它做的本质就是给 AI 用的浏览器。但与传统浏览器的区别在于,首先它将浏览器云端化了,其次针对 AI 使用浏览器的场景进行了优化。
我当时在字节的时候,特别喜欢一鸣的一个说法,叫做「务实的浪漫」。意思是除了「仰望星空」地眺望未来,也要「脚踏实地」地发现并解决眼下一些具体的问题。
那眼下有什么问题呢?
数据表明,现在互联网上已经有 40% 的流量来自机器人。但机器和人使用浏览器的方式有很大差别,怎么能让这些机器人更高效地使用浏览器,就是一个值得重新设计的问题。
比如,AI 需要 RAG 功能,所以 Browserbase 就设计了类似的功能,可以帮助 AI 自动获取网站上的一些信息,作为上下文来辅助后续操作。
曲凯:那「给 AI 用的浏览器」和「给人用的浏览器」具体有哪些区别?
雷磊:首先,给 AI 用的浏览器一定是运行在云端的,因为 AI 不需要休息,可以持续工作。
其次,人类需要先看到浏览器页面上的信息,然后才能用鼠标操作,而 AI 完全不需要前端界面,它可以直接在后端运行。
第三,我们在给 AI 设计浏览器的时候会考虑怎么设计反馈循环,因为我们相信未来 AI 要能自主收集反馈、自主迭代。
第四点与安全相关。这里可以问大家一个问题:你愿意把账号密码交给大模型吗?
你大概率不愿意。
但你在使用 Agent 的时候,可能也不希望它跑了半天却没法完成任务,每次遇到登录问题时还要来烦你。
所以最佳情况是在确保密码不泄露的前提下,能让 Agent 有一定的自主性。
针对这个问题,我们开发了一个功能,就是当某个网站需要账号密码时,Agent 会自动判断情况,并以一种纯本地的方式填入你的账号密码,甚至是验证码。整个过程完全不需要人为干预,并且绝不会将你的任何信息传递给大模型。
第五点,就是在为 Agent 配置浏览器时,也需要考虑 Agent 多线程工作的连续性和成本。
因为大模型在操作浏览器时,往往涉及许多步骤,而且步骤之间可能存在间隔。比如,如果我们希望 Agent 在航司网站上购买一张机票,那么当 Agent 进入下单页面后,可能需要先去携程搜索比对各种机票信息,然后将这些信息带到另一个系统中进行推理。整个过程可能还需要人的介入,最终决定购买哪张机票后,再返回航司网站继续操作。
此时,我们肯定希望航司网站的页面仍然停留在下单页,而不是重新加载。但由于中间步骤太多、各步骤耗时也较长,可能过程中就会导致云端资源的浪费。
曲凯:明白。那在 Browser Use 这个赛道里,Browserbase 已经做得挺不错了,为什么你们还要做?Grasp 和 Browserbase 有什么区别?
雷磊:要做一个具备 Browser Use 功能的 Agent,技术架构可以分为三层。
最底层叫 Runtime,有点类似于云端的引擎。你可以将它理解为传统的浏览器内核,主要解决拉取网页信息、执行浏览器脚本、渲染图片等问题。
但随着 AI 的到来,中间新增了一个 Agentic 层。这一层负责控制 AI 与网页的交互,包括怎么从网页获取信息、怎么生成一些信息来影响网页,以及如何进行推理等等,最终再形成具体指令。
最上面一层是 Knowledge 层,也就是垂直领域的 knowhow。这一层是所有 Agent builder 需要重点关注的,因为它决定了你该怎么设计反馈机制,从而优化最终交付给终端用户的结果。
无论是 Browserbase,还是传统的 Playwright、Chromium,本质上都属于 Runtime 层。
而我们所做的是 Runtime 层 + Agentic 层。这两层一方面工程量非常大,另一方面有许多需要解决的通用问题。因此,如果我们将这些工程和问题都解决,就能够为开发者提供一个封装好的 Agentic Browser。开发者只需结合自身的行业认知,就可能构建出自己的 Manus 或者 Fellou。
曲凯:假设今天 Google 想做一个 Browserbase,是不是可以很快就做出来?
雷磊:确实,只做 Runtime 没有足够大的壁垒。
曲凯:所以 Runtime 层和 Agentic 层必须一起做才行?
雷磊:是的,否则很多你想实现的功能就是无法实现。
曲凯:那么在 Agent Infra 中,除了像 E2B 这样的代码云环境和 Browserbase 这样的 Browser Use 产品,还有其他机会吗?
雷磊:Agent Infra 大体可以分为环境和工具两种。
环境最主要的就是 Coding 和 Browser。Coding 赋予了 Agent 执行一个逻辑的能力,而 Browser 则让 Agent 拥有了与网页信息交互的能力。
不过中间会有非常多的细分领域,比如 Browser 可以有不同的浏览方式、Coding 可以分解释性语言和编译性语言等等,而针对不同的痛点,自然会有不同的解决方案和公司出现。
此外可能还会有一些抽象的环境,比如运行数学公式的环境,以及与物理世界接触的环境,比如传感器、具身智能,包括像李飞飞团队关注的空间智能等。
对于工具来说,如果把 Agent 看作终端用户,那么人类软件史上曾经出现过的工具都有机会重写一遍,比如 Agent 要不要有自己的身份?需不需要自己的电话去接收短信?是不是得有支付能力?
这里也和大家分享一个思考框架,就是通过场景去找切入点。
举几个例子。
一个旅游 Agent,在规划行程和导览的场景里,常用的工具就包括 CRM 查询,网络搜索、购票支付以及身份认证等等,所以这些工具你都可以重做一遍。另外,这个 Agent 很可能会在浏览器环境里运行,然后通过接口或者网页背后的 HTML 来执行任务,所以你也可以给它做一个专门的浏览器。
以此类推,你也可以为一个解题 Agent 去做定理检索、绘图,以及 LaTeX 等工具,也可以为它去写一个新的公式执行器或者代码执行器。
如果未来硬件有了突破,对于一个类似 Jarvis 的 Agent 来说,它需要的则是能够帮助它与现实世界进行交互的工具,以及传感器之类的感知环境。
这些还只是为单个 Agent 开发产品时需要考虑的因素。随着未来 Multi Agent 的成熟,可能会有多个 Agent 一起协作和沟通,共同解决问题。到那时,我们还需要考虑怎么去管控这些 Agent、怎么促进它们之间的协作,以及如果某个 Agent 挂了该怎么应对等等。
曲凯:我记得你之前提到过一句话,你说今天的 Browser Use 有点像 22 年的 AI Coding,能不能解释一下?
雷磊:22 年的时候,大家对 AI Coding 还有很多怀疑,不确定它到底会发展成什么样子,但到了今天,基本上已经没有人质疑它了。
这是因为大模型是不是能稳定地解决某类问题有一个很简单的公式:
某问题的样本集 × 模型的成功率 = 该问题的成功数量。
如果某类问题的成功数量能够满足人类的需求,那它就会被人们认可、逐渐成为主流。
对于 AI Coding 来说,自从 22 年 GPT 3.5 推出后,它的成功数量就突破了一个关键阈值,从而消除了人们的疑虑。
回到今天的 Browser Use,其实它的样本数量比 Coding 还要大,只是目前模型的能力还不足,所以现在还有很多人认为 Browser Use 不够实用。
但随着大模型能力的不断突破,当 Browser Use 的成功数量能够满足人们的需求时,人们对 Browser Use 的态度就会像今天对 AI Coding 一样,而且这个过程会比 AI Coding 来得更快。
曲凯:那 AI Coding 现在全球有几百家公司在做,也有很多估值很高的公司了,你觉得未来 Browser Use 也会是这样吗?
雷磊:其实哪怕是 AI Coding,我觉得仍然处于市场早期。因为如果从商业层面来看,全球软件开发的总市值大概有 3 - 4 万亿美金。只要 AI 能够在其中提升 5% 的效率,那就是一个 1500 亿美金的市场。但是今天 AI Coding 可能也就是一个小 100 亿美金的市场,还有很大的增长空间。
Browser Use 也是同样的道理。假如我们通过互联网进行的销售、招聘、获客等活动,能够通过 AI 提升 5% 的效率,那就是一个非常有潜力的大市场。
曲凯:那现在大家对于给 Agent 做产品这件事情,有什么很强的非共识吗?
雷磊:大家对于「给 Agent 做的产品到底最关键的是什么」这一点看法不太一样。有人认为是上下文,有人认为是更好的数据,或者更强大的模型。
但在我看来,最关键的是怎么设计一个好的反馈循环,让 AI 能够自我迭代。
我觉得人类最大的一个偏见,就是我们非常相信人类的先验知识对大模型来说很重要,所以我们不停地把我们的知识灌输给大模型,觉得这样它会越来越聪明。
但有没有可能人类的知识对大模型来说其实毫无必要呢?
举个例子。DeepMind 团队做了一个解奥数题的产品,叫 AlphaProof。他们团队只设计了一些基本的奖励信号,做对了题目 Reward + 1,做错了 Reward - 1,然后就开始让 AlphaProof 自己做题。AlphaProof 不参考任何人类解题的思路,就是从 0 开始通过强化学习的方式自主探索、自主迭代。但靠着这种方式,它去年已经摘取了国际奥数大赛的银牌。
曲凯:就像 AlphaZero 一样,对吧?最后大家发现人类的棋谱对它来说其实根本没有用。
雷磊:对,所以我觉得未来最重要的范式转变,就是让 AI 通过 Coding 和 Browser 之类的环境,自己去体验世界、获取真实的反馈,并通过这些反馈自主迭代,而不是一味依赖人类数据。
强化学习之父 Richard Sutton 和 David Silver 最近合作撰写的论文《The Era of Experience》里面核心也是在讲这件事。
曲凯:最后我想问,我们今天聊的很多东西的基础就是「未来 Agent 真的会起来」,那 Agent 到底什么时候会起来?
雷磊:与其思考 Agent 什么时候会起来,我觉得更重要的是思考在 Agent 崛起的那一天,我们能够提前为 Agent 做些什么、提供什么样的价值。
最后补一个现场活动的问答彩蛋:
Q: 不同的 Agent Infra 产品要怎么做差异化?
A:Agent Infra 这个赛道才刚刚开始,遍地是黄金,所以现在的关键在于找到差异化的场景,然后把自己的产品做深做厚,而不必考虑别人在干什么。这里可以分享一个具体的数据。有公司统计过,今天互联网上有 63% 的网站都已经被 AI 访问过了,但是来自大模型的流量在整体流量的占比只有 0.1%。
未来,AI 访问网站的流量可能会比人多 10 倍,所以 Browser Use 之后可能会有 10 万倍的涨幅。
那么在这个时候,我们就不该想着怎么去抢别人在 0.1% 里面占的那 0.01%,而是要思考怎么在剩下的 99.9% 里面去做出 10% 的市场。
42章经
思考事物本质
2025-06-15 21:57:00
原创 曲凯 2025-06-15 21:57 北京
Agent 之后,Infra 崛起
自今年年初以来,Agent 赛道的热度持续了好几个月。有非常多各种方向和概念的 Agent 项目已经拿到融资,而很多人也已经开始思考:
下一波机会,会出现在哪里?
我们看到的新机会之一,就是 Agent Infra。
这次我们请来了 Grasp(一款给 Agent 用的浏览器) 创始人雷磊,请他在播客中分享了很多有关 Agent Infra 的观察与思考,比如为什么 Agent Infra 中有大机会、具体有哪些机会,以及硅谷当红炸子鸡 E2B & Browserbase 到底是啥等等。
不过雷磊对于「给 Agent 做产品」这件事,还有很多播客节目中承载不下的观察和思考。
所以下周六(6/21)下午,我们会在北京组织一场线下活动,邀请到包括雷磊在内的两位长期在第一线实践的创业者朋友,带来他们对 Agent Infra 的深入观察和方法论。
活动中,我们会展开讲讲从「给人做产品」到「给 Agent 做产品」的演化路线、Agent Infra 有哪些值得重写一遍的机会、为什么 Agent 需要自己的 browser、做 browser use 的实践和方法论,以及 Agent 长期记忆问题的解决方案和进展等话题。
具体报名信息请见下方海报。为保证小型、私密的活动交流氛围,本次活动限 50 人(非投资行业),我们会优先通过回答更认真、跟我们背景更匹配的朋友,具体通过情况请以工作人员通知为准。
期待和大家见面!
2025-06-15 21:57:00
原创 黄东旭 2025-06-15 21:57 北京
全球化业务发展的宝典
本文来自 PingCAP 联合创始人兼 CTO 东旭的内部分享,有删减
大多数人以为战争是由拼搏组成的,其实不是,是由等待和煎熬组成的。—— 王兴
我们创业这一路上没有那么多惊心动魄,可能最重要的就是那么几个决定,以及,有些事情就不要决定。
那做海外市场,最重要的是什么?
就是创始人心态的转变。
要看它对你来说是一个战略还是第二曲线的尝试,而战略的最好定义就是「不做就会死」。只有当你觉得这件事不做会死的时候,才能把海外市场真的做好。
在尝试全球化的时候,我们踩了很多坑,回头复盘,核心原因就是那几年在国内太舒服了——客户收入不错、经济环境不错、也拿了很多融资。
就是因为国内的业务很好,所以就没想过失败了怎么办,就每次去美国都当是出差,转两圈就回来了。
所以现在回头来看,当时犯的第一个错误就是没有把全球化当做一个「不做就会死」的事。
第二个错误,就是说我们要「出海」。
「全球化」和「出海」这两个词听起来差不多,但其中的区别真的大了去了。
在 2017 年的时候,我们说要做「出海」。
出海这件事情映射到 PingCAP 的组织上,就是中间划出了一个出海部门。
但我们执行了一两年,发现状态不太对。为什么?因为世界上没有任何一个国家叫「出海」,所以出海的团队就像无头苍蝇一样,没有任何重点,很难在一个市场里边打深打透。
所以,在刚刚开始做全球化业务的时候,因为能投入的资源都是有限的,我们就更要从 day 1 开始就聚焦到一个具体的地区去突破,然后再慢慢扩张。
那这个地区的选择就很关键,就是它必须得能够带动其他地区。
就好比我今天只有三杆枪,这三杆枪要想发挥最大的威力,就应该集中打一个山头。打下来之后,再以它为中心去攻克其他的山头。这样做其实会更简单,因为你最开始的成功是有辐射效应的。
所以按照这个标准来看我们的业务,我们当时得出了一个结论,就是要先打东南亚和日本这两个市场。因为这两个市场看起来很简单,地处相近的时区,没有像美国那样的贸易战,出差距离也近。而且相比于老美,亚洲人多少还是更好说话。
但是事实上这个结论是有问题的。
因为日本和东南亚市场没办法辐射价值最高的美国市场。
就算你日本市场做得再好,你的日本客户案例对老美来说也完全没有信服力,因为他们可能根本就没听说过那些日本公司。东南亚就更不用说了。
但是反过来,如果我们先在美国做出点成绩,那再拿着这些案例去日本和东南亚都是完全有说服力的。
所以当时我们意识到,全球有两个企业软件高峰,一个叫中国,一个叫美国(硅谷)。这两个地方的案例都有各自的辐射效应。比如我们现在在做泰国的一个银行,人家一看我们把国内这么大的银行都服务得很好,那服务好他们更是不在话下,所以就很愿意和我们合作。
美国市场还有一个特别的好处,就是天花板确实非常高。美国的很多公司比其他单一市场的公司有钱太多了。
比如我们有一个客户,如果我们的系统挂了五分钟,是一定会影响到他们的实时股价的,假设会跌个一两个点,这些亏损也比给我们的钱要多了去了。
还有个客户,我曾经问过 Ta 有没有成本上的顾虑,对方直接三连怼,和我说:
第一,你千万不要把时间花在节省成本这种事情上(言下之意就是老子也不缺钱)
第二,你要知道我光是测试你们这个系统,每年花的钱就是百万美金级
第三,你知道假如你们的系统挂了五分钟,我们会损失多少钱吗?
所以如果一个软件能真正给他们带来很重要的价值,他们是很愿意付费的。
然后还有一个很有意思的地方,就是日本市场。
1)我们发现日本市场和其他国家的做法都完全不同
2)我们的日本团队都是纯本地化,完全不说英文也不说中文
3)日本市场的业务极度可预测
极度可预测是什么意思?
就是当你过了从 0 到 1 的阶段之后,你会发现你能很准确地预测每一年的增长和营收。
我举个例子,比如去年我跟日本的 GM 开会,我问他:
我给你 double 投入,你能不能给我 double 产出?他说不行。我说更高呢?他说还是不行。
这确实跟日本做企业服务的节奏有关,就是你再 push 客户,他们也快不起来。
不过日本的企业客户有个好处,就是言出必行。
比如有个日本客户,本来和我们约定了一个年度预算,却因为项目延期没有达成。结果他们说,既然当时答应了要达到这个数,那就还是按照约定的金额来结算。所以很多日本企业都非常重视契约精神。
我们犯过的第三个错误,就是一度在用「出差心态」来做全球化业务。但实际上这样做是成不了气候的。
举个特别简单的例子,如果你抱着出差一周的心态去美国谈业务,和客户见面聊得很开心,然后客户想约你两周后再一起喝个咖啡,你怎么办?这时候你肯定不好意思说:抱歉,那时候我早就回国了。另外,因为你抱着出差心态,所以每次来肯定都希望把客户拜访安排得密集一些,不然时间真的不够用。但显然,这并不是一种做长期业务的心态。
事实上,只有当你的肉身常驻海外之后,你才能对业务、客户以及产品机会有更深刻的认知,从而有机会拿成果。因为你的身体在哪里,你的注意力就会在哪里。
那团队是应该从本地招,还是应该从国内派遣呢?
我们实践下来,发现这两种方式都不对。前者的问题在于本地团队与企业文化的融合过程非常漫长,而后者的问题在于你的团队永远无法真正深入了解当地市场,因为派来的同事往往也会抱有出差心态。
而最好的做法就是具体岗位具体分析。
比如我们的售前销售、解决方案、售后这些岗位都是从本地招人,因为这些岗位往往会涉及到地区合规、客户关系的问题,而客户天然地更信任本地人。像一些研发产品的职能,在我们还没有本地团队时,则可以从国内派遣。不过我花了两三年的时间,现在也已经把很多负责产品和研发的 Leader 换成美国本地的负责人了。
对于肉身出海,很多人还会有一些顾虑。
比如英语不好会不会是很大的障碍?
从我们自己的体验来看,语言是最小的问题,只要你敢开口,剩下的都不是事。
不过一个确实存在的问题是,每当我们进入一个新的地区时,都要一穷二白地从 0 开始,和本土企业相比有很大的劣势。
这种情况下,我们拿什么和别人竞争?
其实中国团队有三个独特的优势。
第一,技术。国内的工程能力,即使放在老美这边也是相当强的,最典型的例子就是 DeepSeek。
第二,供应链。这方面中国真的太强了,尤其是在硬件和消费品等与制造相关的产业。
第三,贴身服务的苦工。这也是我们在美国破冰阶段最大的优势之一。
我们在美国的第一个客户本来在 PingCAP 和另一家美国本土的数据库团队之间犹豫不决,最后他们还是选择了我们。我当时问他们原因,他们半开玩笑地说:you guys never sleep。
做企业软件,服务也是产品价值中很重要的一部分。用户在做选择的时候,不仅要选择谁的性能最好,还要看万一出了点问题,谁背锅和搞定问题的速度最快。事实上每一次出现问题,我们确实都能在 15 分钟之内上线、回复、解决。
PingCAP 还有一点也非常有意思,就是我们从来不看竞争对手在做啥,只专注于做自己想做的事情。
为什么?
因为你比较关注的这些竞争对手,基本上都是和你体量差不多的公司。但美国市场水大鱼小,所以就算你们这几条小鱼看似竞争得非常凶,实际上做客户的时候也根本不会正面交锋。真正会和我们抢客户的,反而是那些最老牌的云厂商和一些传统的软件公司。
除此之外,大家可能还会担心地缘政治问题。这确实是一个问题,但并不是当前阻碍你发展的最关键的问题。如果你的年收入不到十亿美金,也不是一家美股上市公司,那就暂时不用过多地考虑它。
那当我们做了全球化业务后,在从 0 到 1 的破冰阶段,我还想给创始人几条建议。
第一,首先可以招聘一位本地销售人员,然后创始人也需要亲自与这位销售一起拜访客户。这对快速了解当地市场、融入当地圈子非常有帮助。而且优秀的销售人员通常具备较强的目标驱动和销售管理能力,这与技术背景的创始人形成了很好的互补。
实际上,现在我们各地区的一号位基本都是销售背景出身。销售背景的负责人会直接用收入成果向你汇报,相比其他背景的人的产出结果更好衡量。
当时我们招聘销售的过程其实也非常艰难,花了不少冤枉钱。最终能招到优秀的销售人员,也是对公司产品 go to market 效果的一种验证。如果销售人员感觉这个产品卖不掉,就根本不会选择加入我们。
第二,如果你想认真做海外市场,尤其是做 To B 业务,就得给自己留 300w 美金的预算,这是你逃不过的学费。
大家至少要做好前三年每年投入百万美金,却一毛钱产出都没有的心理准备。如果你觉得无法接受,那不好意思,你还是别做了。PingCAP 能做到今天这个程度,至少犯过一个价值 5000w 美金的错误。
第三,你要把你的注意力投入到全球化这件事上。刚开始做海外跟重新创业没什么区别,需要 CEO 能够以创业公司的方式去快速调动资源,使公司能够迅速在海外运转起来。
再往下,我们来讲讲具体执行层面的坑和 Tips。
首先从产品层面来说,中国很多公司,尤其做企业服务的公司,经常会犯几个错误。
第一个错误是,大家把「安全合规」的优先级定得太低了,总是优先卷产品性能。但在海外,「安全合规」才是最应该优先投入的,因为它能让你赚大钱,而产品性能其实做到够用就行。
比如,如果你去看海外的产品,就会发现它们都会把安全性作为一个重要的宣传点。
再比如,在美国,金融行业的客户一定会要求你提供 SOC 1 和 SOC 2 的合规证明,保险和医疗相关的客户一定会要求你提供 HIPAA 的合规证明,而这些证明没有一年半载是办不下来的。如果你临门一脚拿不出这些证明,那这些客户就不会和你合作。
所以我建议大家去了解一下自己的产品会不会涉及安全合规的问题,如果会,就要提前投入。
第二个错误是,很多人会认为海内外产品就是同一产品的多语言版本,但我们一次次被现实打脸之后,想告诉大家一个惨痛的真相:海内外的产品完全是两个不同的产品。
以我们自己为例,在国内,我们现在还是以私有化部署为主,卖的是软件和创新。但在海外,我们只提供云服务。而软件和云服务完全是两套逻辑,有着不同的 PMF,甚至很难用同一个产品团队来完成这两件事情。
不过我们还是找到了一个最大公约数,就是开源。海内外产品的研发团队共享我们的开源内核,并且都可以继续为它添砖加瓦。
第三个高频问题是,大家在国内市场总是卷一些莫名其妙的指标,不停地陷入各种 benchmark 的陷阱。但在海外,客户只关注你的服务能为他们的业务带来什么样的价值。
因此,现在我们公司研发团队最关注的指标不是产品性能,而是能否实现「客户成功」。
第四点,中国团队对 UI/UE 的重视程度不够。然而,把官网和产品的 UI/UE 做好,是一件 ROI 非常高的事情。
这一点我们之前也做得很不好,总以为把产品做得扎实就万事大吉了。但美国团队普遍非常擅长 Storytelling,而官网和产品界面就是极佳的讲故事的地方。如果你的 UI/UE 做得不好看,客户对你的第一印象就会大打折扣。
还有一个 ROI 很高的事情就是用 AI。
AI 是现阶段提升企业运转效率的最大杠杆,怎么重视都不为过。建议大家可以多上手实践、感受 AI 的能力边界,就像费曼说的:“What I cannot create, I do not understand.”
聊完产品,我想再分享几条有关商业化的建议。
第一,谨慎选择你的客户,而不是被客户挑选。
因为我们的产品能为客户带来很高的价值,所以我们一直是这么做的,而且我们只选择大企业或者知名企业合作(虽然这听起来可能有些凡尔赛…
这里有个小 tips,就是一定要找到你所在行业最头部客户的清单。尤其是在去海外的初期,最好的策略可能是「name account」,就是给每个销售分配明确的任务,比如要求某人一定要拿下索尼、另一个人一定要拿下任天堂,而不是让大家胡乱地去聊。
而且 PingCAP 一直以来的战略就是专注于大客户。
那怎么定义「大客户」呢?就是一年能为我们贡献 100w 美金以上的客户。
底层逻辑其实就是看 LTV(生命周期价值,也就是客户在使用你的产品期间为你带来的总收益)。
100w 美金看似很高,但我的体感是,很多华人创始人经常低估一个客户的 LTV。
大家也可以停下来思考一下,你会如何定义大客户的标准?
在你拍脑袋想出来的数值基础上,再乘上三到五倍,这可能才是一个真实的北美客户的 LTV。
另外,我们接客户时也会考虑客户的潜力模型。
每当销售谈一个新客户,我都会听他们讲这个客户的 LTV 是多少、他们为什么做出这样的判断。
如果这个客户的公司状况良好、长期数据量非常大,且在数据上一年的消耗能达到几千万甚至上亿美金,那么即使他们的第一单只有 10w 美金,我们也愿意合作。但如果某个客户是一个不知名的小公司,即使他们愿意一单掏 50w 美金,我们也未必愿意接。
LTV 除了对于判断客户潜力很有帮助,对于判断公司的发展重心也有重要的参考价值。
另外,以前我很纠结到底要选 PLG 还是 SLG,但现在我觉得这两个模式的核心都与 LTV 相关:
如果你们用户的 LTV 不太长,也就是用户接受产品的速度很快、使用周期较短,那么你们就是 PLG,因为对你们来说,重点是快速迭代产品,然后让用户用得满意、愿意迅速付费。
反之,如果你们用户的 LTV 较长,那么你们自然更偏向于 SLG,因为你们要花时间总结沉淀商业的这些 Knowhow、想办法让交付实施更可靠。这个过程一定是更长的,但一分耕耘一分收获,一旦成功拿下一个客户,可能就是 100w 美金的订单。
所以根本不用纠结 PLG 和 SLG,因为你的产品 DNA 和商业模式已经决定了你要走的方向。你真正应该选择的是 Value-LG。
第二条建议,是提升自己的 Storytelling 能力。会讲故事非常关键,但这恰恰是华人创始人普遍欠缺的一项能力。
第三条建议,是把 Marketing 后置。Marketing 应该是一件锦上添花的事情,而不应该反过来先布道、再期盼产品起势。
产品最好的 Momentum 来自于客户的口口相传,所以冷启动阶段最重要的就是前几个客户。你得想办法让早期客户替你把产品故事讲出来,这样后面你也能有做 Marketing 的素材。
不过我们比较幸运,因为我们的第一个企业客户中有一位五六十岁的美国技术高管,Ta 把我们的产品介绍给了湾区的其他公司,而那些公司最后都成为了我们的客户。这里也可以给大家一个 tips,就是你要时刻记住,你要接触的目标一定是硅谷最上层的那一小部分 C-level 和 VP 们。
最终,如果你想检验自己团队的国际化水平,有两个很好的里程碑。
第一,全英文办公。比如在 PingCAP,我们开高管会时,就算参会的都是中国人,还是会用英文,因为团队后面可能会有外国人加入,如果 Ta 想回头看会议记录,是看不懂中文的。
第二,公司内部使用真正国际化的工具。不是所有支持英文的企业协作工具都是国际化的工具,正确的标准是要看海外同事是否用得习惯。
最后想分享一点,就是我宁愿我们最早在国内没有收入,这样当时反而能更坚定地 all in 全球化。
其实 2017 年刚做全球化的时候,我们在国内大概就有几千万人民币的收入了,说多不多,说少不少,又一直在增长,所以我们在国内的组织就变得越来越厚重,拖慢了我们推进全球化的进度。
回过头用全球化的视角去思考,会发现在中国做企业服务,老实讲还是太难了。如果真的看利润率,我们现在在其他地区都在赚钱,只有在中国还在亏钱。
所以,如果现在有公司想做全球化,我最后的建议是:
坚决一些。
42章经
思考事物本质