2025-09-01 08:00:00
好莱坞的新闻一贯是比电影好看的。最近就有个音乐制作人离婚的案子,两口子年龄差了50岁,年龄小的是个男性,年龄大的也是,他们是在在线交友网站认识的,而且这位大佬年轻时跟多名女星传过绯闻,可见性别年龄在真爱面前确实啥也不是且富人的交友方式也很接地气,关键这两口子两年前结婚也没签婚前协议,现在闹离婚可能有的看了。新闻里提到20多的这位丈夫曾经大把花他丈夫的钱在他丈夫的住宅里搞聚会,当然这对他丈夫而言都不算钱,人现在住在一艘4亿美金的游艇上,这点钱连每天油费都不够。但有个问题,一个人的消费上限究竟有多高?
看过《西虹市首富》的朋友大概能明白一个道理,那就是钱是可以越花越多的。我们首先要排除资产性消费或者说投资,这种花钱方式其实可以赔但也可以赚,本质在于标的物可以进行二次流通,当然可能折价也可能溢价。然后在消费品里要区分出商品与服务,这里面服务是符合消费与需求一一对应且无法二次流通的,但商品还可以分成耐用品与非耐用品,耐用品例如车子、房子、家具这些具备二次折价流通属性,非耐用品例如食物、水电煤气这些则也属于纯粹消费品。举例而言,这个小丈夫在大丈夫家开聚会没有租金,所需的开支其实只有非耐用品的食物酒水与提供安保餐饮服务的临时工工资,这个是有上限的,200人聚会算大了吧,参加聚会的人就算一直吃喝,生理极限也在那边摆着,每个人都人均100美元餐标,加上10人左右安保服务,3万美元也已经是普通人的消费上限了。再往上的非耐用品消费会面临供给不足,就算你想请200人都吃波龙,那前提也得是当天能抓到这些,这类高端食材会故意制造稀缺来维护自己的品牌溢价,并不是你想买对方就会卖的。然而,这个消费速度很可能是远低于大丈夫的资产升值速度的,他就算资产存活期每天的利息也远远超过其可消费的能力。此时,这些人的对社会价值流动的推进能力就基本停滞了。
到此我也不卖关子了,不论中美,成年人健康生活不折腾幺蛾子独居一年很难花超30万人民币,考虑地域差异范围在20到40万,这个估算折价了耐用品到每一年,例如手机6000元用三年等同于每年换一部2000的手机,居住需求用房租替代,排除掉了投资性消费与亏损,小孩打七折,老人上浮20%,基本只要不赌,年薪20万往上基本就够自己花。这是上限,超过这个上限的消费几乎一定是信息不对称导致的,非战斗人员别入场,大概率是被当韭菜了,你要是自认没有巴菲特的命,就别掺和超出自己认识的事,找只笔拿张纸算下自己各项开支,里面一定有个怪物。从收入水平看,全世界有五分之一的人的收入是能达到这个消费下限的,当然,基本都是发达国家里中产水平往上。同时,这个消费水平对于普通人而言也是可以想象的,几乎所有媒体都是在讲述或编造这个水平生活的故事,太高受众太少无法理解,太低又不足以让观众心向往之,要做到每个人身边都能认识不止一个这样的人才能引发传播效果。同时我们也就知道了,全世界收入前五分之一的人有相当比例是消费不足的甚至形成被动收入,也就是越花钱财富越多,从个人视角财富如韩信点兵,多多益善,但从经济系统视角下,价值流通进入了一潭死水。如果这一潭死水还在给另外五分之四的人制造稀缺性抬高消费门槛,那么很可能这些沉默的大多数就王侯将相宁有种乎了。
这个情况历史上一直存在。工业革命前,普通人的收入大部分都会花到非耐用品上,用来维持生计,服务业很多都是自给自足不追求专业化。工业革命后,人们的家里逐渐出现了标准化量产的耐用品,而这些耐用品例如家具等曾经是只有贵族与富人才能追求的东西,现在甚至有一定保值与二手交易属性了。分工进一步加强后,服务业产业化,曾经回家吃饭变成了快餐店速食,家庭主妇处理家务逐渐变成双职工,富裕起来的人开始模仿上流阶层的消费观,购买耐用品与房产,而此时的上流阶层则早就开始流行年金信托的老钱金融,自己家成年子女的主要任务就是游历各国体验人生,而资金来源则是家族资产利息。这个玩法啥都好,就是受益人太少而想受益的人太多,此时的国家与民族概念开始出现,现代政府开始接管皇室贵族的权力,自然也要修改利益分配机制,法治框架下的结论就是主要交给市场自主调节,政府保留央行与财政政策两个手段来进行干预。此时,老钱们就需要给自己在现代政府里找代言人,然后他们发现地球是个球,有边无沿,不同国家间利益冲突不可调和,新钱们也忍不了,为此打了两次世界大战,到当前为止国际秩序理论上还是二战后定下来的规矩。要是哪天常任理事国换人,那就离下一次世界大战不远了。
二战到今天这80年,曾经的老钱们几乎被知识精英打造出的现代国家与技术进步带出的新钱给改造收编了。你不是喜欢累积财富吗?那我就抛弃金本位,把货币发行收归国家,让货币信用化。你想把控非耐用品市场,我就用技术进步把非耐用品搞得产能过剩,现在作为非耐用品基础的农业在大多数现代国家都是要吃补贴的。你想搞耐用品市场,我有普惠技术把盘子做大。你想搞服务业,那可以,但服务业效率本来也提不上去。政府层面其实也是跟各类资方下套,先是忽悠构建福利社会收税,然后提出一个莫名其妙2%温和通胀率来稀释既有财富。其实大家可以算一下,2%的通胀率相当于每35年稀释一倍的财富面值,没了金本位新钱老钱只能不断转换标的来实现保值升值,很多富豪的选择要么是土地这种不可再生资源,要么就是艺术品这种不可定价资源,要是选了市场定价明确且被技术进步搞成产能过剩的标的,那倒是实现了阶层向下流动了。对此,现代国家肯定要尽一切办法避免出现垄断市场人为搞稀缺的企业,美国政府拆分硅谷巨头跟国内敲打互联网行业背后逻辑是一样的,绝不能在现代体制下给垄断与制造稀缺性搞任何复辟机会,你要想财富增值可以,但你想定义稀缺那就不行。这背后的博弈一方是现代民选政府,另一方是找寻新增长点的资本,这才是现代社会应该出现的矛盾。但要是搞出了宗教战争、土地争夺与二等公民甚至复辟奴隶制,那只能说人类文明还没实现现代化。
对现代社会而言,人的物质消费占总消费比例其实应该是不断下降的,与之对应的是服务业开支的起飞。富人在服务业上消费比例最高也最难量化,但其辐射范围依然有限。他们可以有私人管家、司机、园丁等各类服务人员,但他作为一个人是有生理上限的,一个屁股同时坐不了两把椅子,把一个人伺候好用人越多反而效率越低,也因此即使他们在服务业里可以进行大笔消费,但辐射的行业非常有限。富人最能做好的事不是消费与所谓的慈善,而是投资,让价值真正流动起来,亏也好赚也好,现代政府都是欢迎的。但这里的投资必须是股权投资而不是债权投资,也就是风险敞口一定要大,这里川普入股芯片行业的行为其实要比拜登直接给钱效果要好,你入股了就上了同一艘船,而借债更像是你给某艘船投了个救生艇,也能分红但遇难时优先跑。也只有这样能让富人的钱向下流动,要是都去买国债那实质上就是数字游戏了,经济系统早晚得崩。
其实科研就是一种不错的投资标的,私人投资的科研项目也会更务实,解决更具体的问题。美国私营部门投资科研占比超过七成,发展中国家则主要是政府主导,个人认为私人投资的资金使用效率要更高,国内现在其实应该动员更多私营实体自筹资金进行科研,科研单位也应该更多与私营企业互通有无,这样可以提供更好的闲置资金利用率。要是还去靠政府搞土地财政与大基建,相当于不信任富人的投资能力,国家抓几个卡脖子就可以了,剩下的就让越来越多高学历人群走出象牙塔自谋资金找具体问题来解决,否则很难在创新这个层面上迎来全面开花。
也许,对于不想当韭菜的五分之一,当韭菜反而是对社会最大的贡献。
2025-08-23 08:00:00
先别动,听我把话说完。NPC理论听说过吧,我小时候课本里可没有,我们那时候确实有人说地球就是个高等文明的模拟器,但自从我们有能力模拟出类人属性后,就有越来越多的研究人员开始相信我们就是一个实验室。有实验室自然就要有观察者,这个观察者究竟在哪里,进行的什么实验,很长时间以来都没法验证。不过你也知道,上个世纪就出现儿童表达自己有前世的严谨数据记录,而且能跟前世的记录对上,这就有点奇怪了,究竟是孟婆汤过了保质期,还是天生骗子多实在没法说。好在我们也有所谓前世的数据,合并对比后发现他们之中很大比例的人都有逆转录病毒新增的遗传片段,这些片段都位于之前人类基因组计划认为没有基因的非编码区。据此,我们认为病毒感染是激活前世记忆的一个必要条件,我们一直没有在自然界里找到这种逆转录病毒,在动物实验里我们将这些片段重新编辑进去,结果确实发现在幼年期他们会出现一些对照组里不会出现的行为模式。而且伴随研究深入我们也发现只是增加片段还不够,还需要敲掉几段非编码区序列才能更好激活。后来我们也把这些片段用靶向药转进志愿者造血干细胞,结果这些人很多被激活了前世记忆。这种激活很快就变成一项商业服务,很多寺庙教堂都专门采购这项服务为自己的信徒开光,即使不信教的人也会使用这项技术来追根溯源。确实,这些人的前世大都跟这一世没有血缘关系,甚至语言都不通,但继承的记忆确实是符合记录。据此,有人就认为这是我们处于模拟实验的证据,也就是所有个体本质上共用一个大语言模型,正常状态个体间是独立的,同时一生的数据也是被记录的,但某些逆转录病毒可以激活之前曾被记录过的模块,进而重现某些数据或者说记忆。当然,我们很快发现有些人是无法被激活的,据此我们认为这些人是NPC,也就是这些人是被高等文明故意设置用来操纵模拟实验的,他们使用的大语言模型跟存在前世的人不是一个。从比例上看,现存人口中62%是可以被基因编辑技术激活前世记忆的,但另外这38%的人的行为数据确实方差要比有前世记忆的大,也就是倾向于做出前人不会做出的行为,事实上这些人里有相当一部分都在决策层,他们很可能就是某种实验的执行者,而且观察者很聪明,他们并不是通过遥控来指导这些人的行为,他们所做的仅仅就是让其使用一套不同的意识体,让后等概率起作用。这个NPC理论提出后,社会上就出现了对这些人的歧视,认为他们只是工具人,没有积淀。但我们不是这么认为的,我们认为NPC恰恰是那些有前世记忆的大多数,而我们现在认为的NPC其实才是正牌外星高等智慧,或者说智慧代理人。故事是这样的,某个高等文明构建了地球作为自己的实验室之一,他们应该是同步启动了无数的地球与对应的宇宙,具体到这个地球,其任务就是一个角色扮演游戏,只不过他们懒得设计NPC,直接用了原生地球人作为NPC,又因为原生地球人的模拟数据或随机数生成器是固定的,所以会出现地球人认为的转世或前生记忆,模拟器充当了前面所述的大语言模型。而没有前世记忆的人就是高等文明的玩家,这些玩家为了体验沉浸式游戏,先备份了自己本来的记忆,然后直接选定一个模糊的剧本就开始游戏,作为无法激活前世的人降生,这些人的一生就是一局游戏,只有游戏结束后他们才能取回自己原本的记忆,同时这局游戏的体验会添加到原本的记忆上,这样的娱乐性最高,而且几十年的游戏时间对于他们而言也没啥意义,他们可能本就是以信息形态的高等生命,附着硅基还是碳基无所谓,他们享受的就是这一生的体验。而且我们推测,他们之中有些人会存档反复游玩某个设定下的人生,甚至会导致其出现即视感,这点我们验证过了,只有无法激活前世记忆的人才会有既视感这种读档的体验。当然,这个游戏设计非常精巧,精巧到连这些玩家都不知道自己是玩家,只有玩家死亡才会进行结算。同时,我们也发现了反例,确实存在有前世记忆的人也会有既视感,这类人不多,但集中出现在一些人生履历奇特的人身上,据此我们推断,玩家不但可以建立新号,甚至可以体验原生地球人的一生,因为地球原生NPC也可以有很精彩的一生,游戏重新读档来体会很可能就是个付费服务。很遗憾,我们没有办法去验证这一版的NPC理论,我们不太能想象高等文明的需求与技术水平,但我们后来发现了你们。各种指标表明你们应该是NPC而不是玩家,你们的生活几乎就是机械的重复,很容易被鼓动随波逐流,也不喜欢深入思考问题,对于高等文明而言你们没有研究价值,甚至对于人类文明而言你们也没啥价值,你们的认知水平甚至不如人类自己开发模拟出的人工文明。但你们的存在本身就说明某些玩家需要这样的NPC,作为NPC的一员,我们需要发声让高等文明看到,我们要破坏他们的游戏体验,因此我希望你们把这套新理论传播出去,看能否触发系统补丁,这就是请你们来这里的原因。好了,现在你们可以走了,一人可以领一盒鸡蛋。
2025-08-17 08:00:00
最近收到个邮件,是美国社安局庆祝自己90周年的,然后我就想起了那个传说中美国社保崩盘年份——2033,这么一算,要是没有改革,看起来90周年很可能就是社安局最后一次庆祝自己的整数年了。这里我们复盘一下,毕竟中国养老金预期耗尽的年份大概在2035年,虽说四舍五入还差了10年但总归还是有借鉴意义的。
20世纪30年代,美国社会刚经历完大萧条,65岁以上老人有一半生活在贫困线下面,巧了,带英在1908年的社会调查也得到了同样的结论。其实说白了这口锅在工业革命脑袋上,农业社会最贪婪的地主也不过就是搞一下土地兼并,然后被皇权敲打下,普通人开个荒搞个自耕农不至于生活在贫困线下面。但工业革命后,劳动力进城了,物质上高度依赖分工后高效的产业提供商品,人们的情感束缚却逐渐脱离家族伦理变成家庭伦理,更独立的同时也更脆弱,需要社会层面提供制度保障了。
其实,工业国家在19世纪末20世纪初普遍经历了一次社会关系变革,国家认同。美国移民的黄金期就是这个时代结束的,之前你跳上船跑到美国在爱丽丝岛上搞个卫生筛查基本就算你美国人了,但经历几十年的移民,美国社会里自然就出现了对移民的反对。1924年,美国出台一个影响至今的移民法案,它根据1890年美国人口调查对移民来源国实行了配额制,每年每个国家移民配额为1890年在美国的该国出生人口的2%,这就基本排除掉了南欧跟东欧国家,这些国家在1890年移民不多。同时,该法案规定“没有资格获得公民身份的外国人不得移民美国”,这个规定指向了1790年归化法案,在规划法案里定义只有“自由的白人”才能成为美国公民。至于华人,1882年就有专门排华法案禁止华人移民了,但1924年法案将其永久化了。而护照也是一战后为了防间谍才成为一项国际制度,之前更多描述会类似:我去新大陆闯天地,而国家认同出现后就变成移民了。
更神奇的地方在于,这项法案是有“科学”依据的,也就是所谓的优生学,把社会问题归咎于不良遗传基因并对人种进行了划分:北欧人种是顶层,阿尔卑斯中欧人种是次等,南欧东欧是劣等,非白人则属于不可同化人种。要没有这个理论支持,他们也不会挑出1890年作为配额参考年。当然,这个理论启发了一个小胡子,他读了麦迪逊·格兰特的《伟大种族的消逝》后将其称为圣经,而1924移民法案也激发了他动用国家机器来建立种族国家的政策,更不用说当时美国遍地开花的为“基因不适者”搞得强制绝育法也给纳粹设立类似法案提供了数据,显得“科学”与“现代”。
时至今日欧美政坛,依然有大替换理论为反移民提供指导方针。现在他们不说基因不好这种很容易被技术证伪的话了,转而说白人要被灭绝了,核心论据是生育率数据,他们对比了下绿墨三的生育率,认为这些“文化不兼容”的群体生育率太高了,白人生育率又太低,开放移民前提下白人就会逐渐被取代。现象确实没错,但原因可以说胡说八道,因为东亚的超低生育率已经表明生育率跟人种没啥关系,单纯就是个经济发展后必然出现的现象,而且大概率不可逆,甚至印度现在生育率都低与世代更替水平了。不过这个高生育率现象确实值得多说两句,过去100年出现高生育率的国家与地区的人均GDP基本都在几百美元到一两千美元水平,一旦超过,生育率马上掉头就跌。如果硬要找个解释,倒不如用R/K选择理论:当收入特别低时,自己养不活自然生育率不高,但当收入达到可以养活自已后,最优的生存策略就是繁衍大量后代,用数量来提供概率保证,不过当收入再高到几千美元后,人们的策略会转到看重质量上。推动这一策略转变的原因还是在工业化与现代化上,过去一百年,全世界大部分人口都经历了农业社会到工业社会的转变,而工业社会不需要更多人数而是高水平技工,重视教育与现代生活的多样化分散了人们在生育这件事上的精力,除了宗教还在鼓励外,世俗社会里低生育率已经是不错的现状了,而且越发达生育意愿越低,要是机器人发展再快点,0生育率也不是不能期待。
当然,1924法案很多内容现在都被废止了,毕竟文明进步的方向不能是血缘论,但移民配额制依然存在,尤其是对非白人国家的移民限制依然很严格。美国人对移民的恐惧与排斥情绪在二战后有过短暂缓和,但冷战后又开始反弹,尤其是911事件后,反恐战争的名义下移民政策变得更为严格。移民在两端比较多,一端是低端劳动密集型产业,这可以降低本土美国人的生活成本,另一端在高技术移民,可以吸引创新性人才,但在保守主义者眼里只要是移民都是威胁,尤其是低端移民,他们认为这些人会抢走美国人的工作机会,甚至会带来犯罪率上升等社会问题,这究竟是事实还是带着偏见的逻辑推断,各位自己查吧。
扯远了,说回社保。1935年,美国人开始有了社保,一切都在好转。但时间来到1983年,经历70年代滞涨后的美国经济疲软,到82年年底,社保信托基金已经空了,此时美国人担心这个运行不到50年的社保可能要完蛋,这时候美国两党再次联合,把退休年龄从65推迟到了67,同时提高了工资税率。这个83年改革其实跟这两年国内社保改革的手段差不多,没钱就推迟退休年龄,但国内好像没提高税率。只能说也就是当时没有互联网来搞串联,美国这次危机就轻松度过了,但类比前两年法国马克龙,想推迟一年结果民众就上街了。然后,从1983年到2009年,美国社保出现了26年盈余,除了改革以外,婴儿潮没退休也是很重要的一点。
时至2010年,美国社保第一次出现现金流赤字,也就是当年收入小于支出,需要依靠利息来补窟窿。说起来美国也是吃了技术红利的大头,利息收入竟然续命了10年,一直到2021年,信托基金余额才开始减少,然后大家就都算出了2033年这个彻底耗尽的时间点。不过耗尽不代表崩溃,只是变成了当年收入补当年支出的模式,据估计大概能支付77%,剩下的就只能搞改革了。眼下也不是没有方案,自由派方案是说取消掉社保收入上限,也就是现在年收入超过17万多后社保封顶,这样对于高收入者社保有上限,但保守派则认为你搞开源没用,得节流,要求砍当前的社保福利,当然不出意外美国的退休年龄可能也会进一步被延长。不论怎么看,当前社保可能都算是出于巅峰期,后面不管怎么改对当前交社保的人而言都是不如当前领社保的人了。
其实社保出现本身就是国家概念的延伸,原来靠家族或子女,现在国家承担相当一部分的经济责任。不过也正是因为国家承担了老年人赡养责任,现代社会的家庭结构就进一步解体了,发达国家老年人独居比例普遍比较高,国内则会出现子女一线打拼,父母二三四五线城市居住的格局,养儿防老的传统观念事实上正在不断弱化。经济越发达,个体独立性越强,原来骂封建大家长,现在就可以骂原生家庭,压迫也确实一直都在,只是希望骂的时候想一下你自己能做好到什么程度。但社保这个体系还是要维持的,所以兜兜转转又要回到是否接纳移民的问题上来。你放开了移民限制,那么就可以从其他国家地区吸收到交社保的人,但同时也会面临文化冲击,不放开移民限制,那么最好祈祷技术进步后大公司会为机器人交社保,不然社保账户几乎一定是亏本的。最差的情况,社保崩盘,自主养老,那么社会大概率重现美国大萧条后老年人一半生活在贫困线下的场景,一个现实就是越穷的人越不会管理自己的财富,没有强制社保,各类骗子或黄赌毒也会从他们手里拿走那些声称可以自主养老的钱。就连宗教都有历史悠久的十一税,其实也起到了部分社会救济的功能。
低生育、少子化、老龄化、社保见底、移民政策、贫富分化……这些美国社会当前面对的问题其实是所有现代国家都会面对的问题,这是经济发展一定会出现的现象,这里面讨论意识形态毫无价值,技术上解决问题才是应对方法,我们的窗口期大概就是10年,不能因为过去三四十年的平稳就默认后面也是一样的。我现在能想到的方案有这些,之前都写过文章:
有效期现金 : 通过有效期倒逼价值流动来提高资本效率,弱化贫富差距。
投资式教育 : 所有教育免费,靠工作的人交1%收入来维持其从幼儿园到博士学校的运行。
全民基本收入:机器人收税,全民发钱,共享技术进步福利。
没错,这些方案看起来都挺激进的,但对比社保崩盘又太温和了。
2025-08-14 08:00:00
In non-targeted metabolomics or environmental non-targeted analysis, throughput is a key factor involving data quality. Typically, we use the same chromatography-mass spectrometry method to run a sample sequence. The sequence executes sample analysis tasks sequentially, meaning the next sample is injected only after the previous one has completely finished running, with each sample generating a single data file. In this process, even if we compress the chromatographic separation time to 15 minutes, we can run fewer than one hundred samples a day at maximum capacity. When considering the quality control (QC) samples included in the injection sequence, the actual number of samples that can be analyzed is even smaller. If thousands of samples need to be processed, the analysis can easily stretch over a month. An instrument running continuously for a year without maintenance can only handle less than ten thousand actual samples, not to mention that each sample might need to be run on different chromatography columns and in both positive and negative ion modes. Under this technical limitation, it is difficult for non-targeted metabolomics or environmental non-targeted analysis to match the throughput of other omics fields, which can handle thousands or tens of thousands of samples per day. Furthermore, as the number of samples increases, batch effects or instrument stability require additional correction, making data quality control exceedingly complex—a true bottleneck issue.
The biggest limitation here is actually sequential injection, where each additional sample adds a full chromatographic separation time. From a data perspective, each sample corresponds to an independent data file, which actually wastes data storage space. For example, when you look at the mass spectrum of sample A eluting at 10 minutes, this spectrum only contains substances from sample A, and most of the space in a full scan is just noise. We can then consider increasing the amount of information by adding more samples while keeping the data space for each sample constant. In simple terms, we don’t wait for one sample to completely finish before injecting the next. Instead, we continuously inject different samples at a fixed time interval, for example, every 1 minute. This way, the data collected at the 10-minute mark of the run will contain substances from sample A separated for 10 minutes, substances from sample B separated for 9 minutes, substances from sample C separated for 8 minutes, and so on. The figure below is an example. The first 10 minutes show the complete separation of 10 substances. What follows is the data that appears when 9 identical samples are injected at one-minute intervals. To the left of the red dashed line is conventional injection, where the mass-to-charge ratio vs. retention time data space is sparse and not utilized efficiently. However, with fixed-interval injections as shown on the right, we can see that the data storage space utilization is significantly improved.
If the chromatographic column’s separation performance is reliable, then theoretically, isomers eluting at different retention times will only interfere with other samples if their time interval is exactly one minute. In this scenario, the marginal time required for each additional sample is theoretically only one minute. This allows us to achieve the analysis of thousands of samples per day. At the same time, the interference from the background or matrix is naturally shortened, mobile phase consumption is greatly reduced, and under isocratic elution, complex peak alignment steps are largely unnecessary. It could be said that in the world of techniques, speed conquers all.
This idea did not come from nowhere. In fact, flow injection technology emerged in the 1970s to increase throughput. Later, with the development of chromatographic technology, methods involving fixed-time-interval injection with isocratic elution also appeared. However, these methods were not for analyzing unknown compounds but for known ones, such as in high-throughput drug screening. If you already know the retention time of a substance, you can find the peak position for the next sample by simply adding the retention time to the injection interval. But what if you don’t know what you are measuring? This brings us back to the previously mentioned scenario. I can inject samples this way, but how do I process the data? As shown in the figure below, the data we collect is like the superimposed image on the left, and we need to recover the individual images on the right.
I submitted an abstract on this topic to this year’s American Society for Mass Spectrometry (ASMS) conference, primarily to solve this problem, and recently submitted a preprint to make this technology public. The solution is quite simple. While we indeed don’t know what we are measuring, we don’t necessarily need to. The most crucial piece of information is that a specific mass-to-charge ratio will appear at a specific retention time. We can obtain this information by running a complete separation of a pooled sample before conducting the fixed-interval injections. Then, we just need to get all the combinations of retention times and mass-to-charge ratios that appear in the pooled sample. Subsequently, the information for a given substance in different samples can be obtained by looking for the response of that mass-to-charge ratio at the expected peak time, which is calculated as its original retention time plus the product of the fixed time interval and the sample injection number. This is like fishing: we don’t know where the fish will appear, but if we have baited a spot beforehand, we can find the corresponding fish by casting our line near that spot. Therefore, this strategy can be understood as “baiting the spot before fishing,” or “Fishing-style Injection.” Note that this method does not require finding a peak for the substance in every sample; it only provides a spatial range to look for the peak. If no peak is found, it means the corresponding sample does not contain that substance. The figure below is a demonstration of the algorithm: the retention time of peak A in the pooled sample, plus the fixed time interval multiplied by (injection number - 1), plus the full separation time of the QC sample, equals the retention time of peak A in the sample with that injection number.
An idea without action is cheap. I noted this idea in my notebook back in 2017, but at the time, I lacked the ability and resources to turn it into action. My current work allows for free exploration, so I revisited this idea and validated it through collaboration in the lab. The most critical part of the practical implementation is to decouple the communication between the chromatography injection and the mass spectrometry acquisition, allowing them to operate independently according to a pre-designed injection sequence without interrupting the MS data collection.
We tested the performance of Fishing-style Injection on two chromatography columns in both positive and negative ion modes. We injected 158 samples in each mode, including a pooled sample as a QC every ten samples, with the total injection time controlled to under six hours. A conventional injection approach would have required several days and a multi-batch design. Because the marginal time added for each additional sample in this method is equal to the fixed time interval (one minute), it is possible to analyze one thousand samples a day while ensuring each sample has 10 minutes of separation time. Repeated tests showed that the retention time shift was within 10 seconds; the reversed-phase column actually performed better, and the shift on the HILIC column was also within an acceptable range. In terms of quantitative performance, within the 10-minute isocratic elution window, although we found 1000-3000 peaks during the “baiting” process, after considering only the peaks with a response deviation of less than 30% in the intra-sequence pooled samples and removing peaks found in the blank, we could still obtain 450-738 stable peaks. Again, the reversed-phase column performed better than the HILIC column. This result is already in the same order of magnitude as the number of peaks obtained with gradient injection after applying similar quality control standards. Furthermore, the issue of isomeric interference mentioned earlier does exist, but for blood metabolomics specifically, fewer than 2% of the peaks were affected. If you are analyzing lipids, you should definitely evaluate this effect first and optimize for a fixed interval time that minimizes interference. If throughput is a priority and you have tested that the compounds you care about can be separated by the column, then Fishing-style Injection offers a natural advantage in speed and cost. The cost per sample can be controlled to under $10, which is at least an order of magnitude lower than current injection methods, making high-throughput mass spectrometry screening a reality. Moreover, I have already written an open-source software package for the most critical data processing part of this method. If you want to try this method, there is no need for physical modifications to your existing instrument; you just need to control the chromatography injection and data acquisition separately. In fact, the mobile phase can be switched to gradient elution, but the injection interval would no longer be fixed and would need to be optimized for the column. Alternatively, the interval could be kept fixed, but the algorithm would need to recognize the elution pattern. I will leave these parts for future improvements by others.
Feel free to try it out!
Preprint link: https://chemrxiv.org/engage/chemrxiv/article-details/6897568d728bf9025ec3ab62
2025-08-12 08:00:00
在进行非目的代谢组学或环境非目的分析时,通量是一个涉及数据质量的关键因素。通常我们会用同样的色谱质谱方法来跑样品序列,而序列会顺序执行样品分析任务,也就是当一个样品完全跑完后再进下一个样品,每个样品会生成一个数据文件。在这个过程中,即使我们把色谱分离时间压缩到15分钟,一天撑死也就跑不到一百个样品,而考虑上进样过程中的质控样品,实际能分析的样品数还要少。而如果要处理上千个样品,分析时间拖上个把月没问题,一年一台连轴转不保养的仪器也就能处理不到一万个实际样品,更不用说每个样品可能要在不同色谱柱及正负离子下跑。在这个技术限制下,非目的代谢组学或环境非目的分析很难与其他组学的一天几千上万样品通量匹配,更不用说伴随样品数上升,批次效应或仪器稳定性需要额外进行矫正,数据质量控制会变得非常复杂,算得上卡脖子问题了。
这里面最大的限制其实就是序列进样,每增加一个样品就要增加一个完整的色谱分离时间。从数据角度看,就是每个样本会对应独立的数据,然而这样其实浪费了数据存储空间。打个比方,你去看A样品在10分钟流出的质谱图时,这个质谱图里只会包含A样品里物质,全扫描的大部分空间都是噪音。那我们就可以考虑保持样品数据空间不变通过增加样本来提高信息量,说人话就是我们不要等一个样品完全跑完才进下一个样品,而是按固定的时间间隔例如1分钟连续进不同的样品,这样在该数据10分钟收集到数据就会包含来自样品 A 10分钟分离的物质,样品 B 9分钟分离的物质,样品 C 8分钟分离的物质……以此类推。下图是一个示例,前10分钟是10个物质完全分离,后面是间隔一分钟进9个同样样品会出现的数据。红虚线左边就是常规进样,此时荷质比-保留时间的数据存储空间是稀疏的,利用率不高,但如果按右边固定间隔进样,我们会看到数据存储空间利用率就提高了。
如果色谱柱分离效果在线,那么理论上在不同保留时间流出的同分异构体的时间间隔只有正好精确到1分钟才会出现对其他样品的干扰,而此时我们每增加一个样品,理论上需要增加的边际时间也只有1分钟,这样我们就可以实现一天分析上千个样品了。同时,背景或基质的干扰时间也自然而然被缩短,流动相消耗会大幅降低,等度洗脱下基本也不需要进行复杂的峰对齐步骤,可以说天下武功,唯快不破。
这想法并不是无源之水。事实上,上世纪70年代就出现了流动注射技术来提高通量,后面伴随色谱技术发展,也出现了固定时间间隔进样等度洗脱的方法,只是这些方法并不是用来处理未知物的,而是处理已知物的,例如高通量药物检测之类。如果你已经知道某个物质的保留时间,只要按进样的时间间隔增加保留时间就可以找到下一个样品出峰位置。但如果你不知道要测什么呢?这就回到了前面所说的场景,我可以这样进样,但数据咋处理?如下图,我们收集到的数据就像是左边的叠加图像,需要恢复出右边图像。
我在今年的美国质谱年会提交了一个摘要,主要就是解决这个问题的,最近也提交了一份预印本论文来公开这项技术。解决的思路也很简单,我们确实不知道要测什么,但其实也没必要知道要测什么,这里面最关键的信息就是在特定保留时间会出现特定荷质比,而这个信息我们可以通过在进行固定间隔进样前跑一下混合样的完全分离来获得。然后,我们只需要把混合样里所有会出现的保留时间与荷质比的组合拿到,那么后面不同样品里该物质的信息就可以通过寻找保留时间加上固定时间间隔与样品进样序号的乘积这个出峰时间该荷质比的响应来获得。这就好比钓鱼,我们并不知道鱼会出现在哪里,但是如果我们事先打过窝,那么只要在打窝的位置附近下钩就能找到对应的鱼,所以这个策略可以理解为先打窝后钓鱼的渔式进样。注意,这个方法并不需要每个样品都能找到该物质的峰,只是提供了找峰的空间范围,找不到就代表对应样本不含有该物质。下图是算法的一个演示,混合样品A峰的保留时间加上固定时间间隔乘以进样序号减1再加上质控样品全分离时间就是进样序号样品里A峰的保留时间。
只有想法没有行动那想法就是廉价的,这个想法我2017年就记在笔记里了,但当时并不具备将其转化为行动的能力与资源。现在的工作可以自由探索,我就又重新把这个想法捡了起来,通过跟实验室合作实际验证了一下。实操过程中最关键的地方要切断色谱进样与质谱收集之间的通讯,让其单独按设计好的进样序列进样而不去中断掉质谱数据采集。这里面自然没少踩坑,这些坑有些我放到预印本里了,有些虽然浅浅写了一笔,但背后的工作量并不少。
第一个坑就是固定的时间间隔需要根据数据重新算,原因在于如果你单独进样,进样过程的时间是不进行数据采集的,但在渔式进样里,质谱是需要连续采集信号的。因此,即使你设定隔一分钟进一次样,考虑上洗针等过程,每一针是固定时间间隔会多出大概半分钟,这样我们就需要写一个启发式算法来找到这个操作者可能不知道的时间间隔。当然,我希望这个坑可以通过改进仪器控制软件来实现而不是后期用软件方法补充。
第二个坑就是混合样品需要重复进样,理论上混合样品进一针,空白样品进一针就可以得到全部样品里可能出现的峰,但现实中发现样品里出现了大量存在固定时间间隔,但单一混合样品里没出现的峰。这个现象在DDA里也很明显,我只是没想到全扫描也需要一些重复进样,当然文章里用的是最保守的方法,只考虑了出现在所有六个混合样里的峰,但实际样品可以考虑放宽限制,除非你对自己质谱灵敏度特别有信心。
第三个坑最耗费时间,那就是峰提取软件会漏峰,明明在EIC里特别明显的峰,xcms就只能找到其中的一部分,这导致我第一次跑样后拿到的结果非常差,本来以为是算法问题,后来才发现峰表本身就不全。同时,你可以想象到渔式进样只会产生一个数据文件,文件也非常大,信息密度很高,有些软件根本就处理不了直接无响应。因此我只好自己写了个非常简单的依赖信噪比局部最大值找峰的算法,用C++写运行速度并不慢,但起码不会出现特别明显的漏峰。之所以用了很简单的算法,主要是渔式进样也是等度洗脱,峰形稳定,另外就是柱子不需要再平衡,流动相全程不变,当然这会牺牲柱效,但我们也测试了用不同等度条件进行洗脱,确实可以一定程度提高峰覆盖率,但既然这个方法看重的是高通量,那完全可以抓大放小,先优化出最好的等度条件,然后就用这个条件跑就可以了。这个地方其实希望色谱柱厂商也能跟进研发专用的等度洗脱柱,现在的色谱柱为了适应梯度洗脱做了一些性能取舍,等度洗脱其实还有很大优化空间。
我们实际测试了渔式进样在两根色谱柱上正负离子的表现,每个模式进样158个,其中每十个样品会加入一个混合样进行序列中质控,进样时间控制在六小时以内,而换常规进样则需要几天多批次设计。因为这个方法每增加一个样品所增加的边际时间等同于固定时间间隔,也就是一分钟,因此可以实现一天测定一千个样品且保证每个样品都有10分钟的分离时间。反复测试下发现保留时间偏移在10s以内,反相柱表现其实更好些,HILIC柱的偏移也在可接受范围呢。定量表现上,考虑10分钟的等度洗脱窗口,虽然在打窝过程我们其实找到了1000-3000的峰,考虑上序列中混合样峰响应偏差小于30%并且扣除掉空白样品里的峰,大概依然可以得到450-738个稳定峰,同样是反相柱表现优于HILIC柱,这个结果其实已经跟梯度进样考虑同等级质量控制后的峰数在同一量级了。另外,前面提到了同分异构体干扰问题,确实存在,但单就血样代谢组学而言,被影响的峰低于2%,如果你做脂肪类物质,一定先去评估下这个影响,优化出一个影响最小的固定间隔时间。如果看重分析通量且测试过自己关心的化合物可以被色谱柱分离,那么渔式进样会有天然的速度与成本优势,单一样品进样成本可以控制在10美元以内,比当前进样方式成本低至少一个数量级,这可以让高通量质谱筛查成为现实。同时,这个方法最关键的数据处理我已经写好了开源软件包,如果想试用这个方法也不需要对现有仪器进行物理改造,只要分开控制色谱进样与数据采集即可。其实色谱流动相是可以换成梯度洗脱的,只是此时间隔进样时间就不固定了,需要按柱子优化,或者间隔时间固定,但算法上需要识别流出模式,这些部分就留给后人改进吧。我并不在乎这预印本最后在哪里发表,现在也过了需要发表来证明自己的阶段,这本就是个兴趣使然的项目,只是想看到更多地方能实际用上这个方法。
欢迎试用!
2025-08-05 08:00:00
做过小分子代谢组学或非目的分析的人大概都有一种体会,那就是数据处理软件不同,得到的结果往往也不同。究其原因,非目的分析这个名词就预设了分析方法是没有预设要检测到化合物的,因此基本是软件检测出什么就报什么。而不同的软件对于原始数据的处理方法并不一致,因此就会出现同一份数据但得到不同处理结果的情况。
如果倒退十年,市面上常见的一级质谱峰提取软件除了仪器厂商自己开发的,基本就是xcms跟MZmine两家,后来OpenMS填补了一部分python用户的需求。然后深度学习的风终究还是吹到了质谱数据分析这边,最近几年的峰提取软件很多都是直接套了一个CNN或transformer的内核来进行识别。这类文章很自然就是要验证自己的效果,然后又是因为非目的分析拧巴的本质,验证基本就是三条思路,要么就是用标准物质进行验证,要么就是定义一个独立的统计量来评价峰的质量,要不就是跟其他软件交叉验证。然而标准品可能覆盖不到未知物,定义的统计量会偏向于特定算法,交叉验证更是很难给出到底哪家最好。
那么,其他学科遇到类似问题会怎么办呢?很简单,就是数据仿真或数据合成。真实样品里的信息我们永远无法完全搞清楚,那就直接生成一个我们能搞清楚的。具体到小分子代谢组学或非目的分析,一般都要加上色谱柱进行分离,这样我们的任务就变成了仿真色谱质谱数据。那么这类数据如何生成的呢?只考虑一级质谱,数据其实就是由带时间戳的全扫描质谱组成,这样我们首先要找到一些小分子的质谱谱图,然后在时间维度上将其展开成一个高斯峰就可以了,将这些数据组合就成了一个内含物完全已知的人造样品,每个物质的出峰时间、峰宽、峰高、信噪比、响应因子全都可以人为控制。当然,背景噪声也是必不可少的,我们可以提供一组来自真实实验的背景离子去模拟其色谱,叠加上测量荷质比的不确定度(20ppm QTof 5ppm orbitrap),这样我们就可以生成一个最基本或者最理想的质谱数据,这样只要让不同软件来识别一下就知道哪个更好用了。
我最近的一项工作就是生成这种合成数据,刚刚发表在AC上,也有免费的预印本 (这个版本比发表版本少了一个基线分离测试章节,但多一个冗余离子章节),目的就是提供这样一个仿真小工具。因为仿真的峰几乎就是完美峰形,这样的峰如果还找不到,那么也就没必要说自己更好用了。当然,除了完美峰形,这个工具也可以用来仿真拖尾峰与前伸峰。这里被仿真的实验数据来自MoNA跟HMDB的一级质谱数据,因此你会看到真实物质的冗余峰。因为文章只是个字数受限的技术报告,我简单对比了下几个常见软件的表现,虽然他们大部分能找到该找到的峰,但也会找到很多本来不存在的峰,这个假阳性问题的简单解法就是多用不同软件来找,然后只去关心他们都能找到的那些峰。然后我也对比了这些软件在识别裂头峰或其他非基线分离上的表现,只能说不太理想,会丢掉一些峰或找错峰的范围。要知道这些数据已经是简化过的了,这个表现让我很难直视之前基于这些软件发表的结果,目前看每个软件都有一定改进空间。因为没钱,商用软件没测,估计也好不了哪去。
这个小工具存在的意义除了用来验证软件表现,另一个则是为深度学习提供饲料。AI4Science现在一个卡脖子的地方在于实验数据有限,很多实验也很贵,同时也会被实验室条件锁死,这使得A实验室里训练出的模型在B实验室几乎不能用,实验数据天然就会过拟合所在的实验室条件,甚至换个操作员都会有批次效应。如果我们的目标是一个通用质谱数据模型,那我们就需要合成出保留时间完全不固定且出峰质量千奇百怪的数据用来提高模型的稳健性。这点其实是借鉴了去年 deepseek 强化学习的思路,就是天然语料缺失或多样性不足,那我就仿真出来。当然这个工作还在进行,需要的合成数据量也非常大,真要是让实验室进样来生成,开支会失控。当然,这个小工具还有很多其他用法,有时我会用合成数据来快速验证一些有意思的想法。下面会展示非基线分离、扫描循环不足还有背景噪音高的仿真效果,这部分是给审稿人看的,不在正文里。
我很讨厌喂饭式给结论,所以这篇文章里所有分析的代码与数据也是公开的,放在zenodo上自取,不放心我的结论就自己验证,因为有预印本的原因已经被下载九百多次了,看起来关心这问题的人不少。
Ps. 这项工作算是兴趣使然,虽然是我的研究领域,但目前给我发工资的项目都跟这个无关,你可能注意到这篇文章没有任何资助,一作跟通讯都是我,属于给自己挖的坑。这稿子经历过拒稿重投,被审稿人的合理或存疑的要求搞得面目全非,但总算发出来了。我做软件工具的理念很简单,首先我得用且对我长期有用,因此我后面肯定还会维护,毕竟现在在做的另外几个自带干粮的项目都需要这个工具提供验证,只是从此实验数据就可以自给自足了。
Ps2. 这个工具目前只能生成一级质谱数据,二级质谱数据的仿真会复杂很多,同时我也认为如果一级质谱数据挖掘得当,很多问题就已经可以回答了,二级的鉴定属于锦上添花,属于分析化学人的某种坚持。