远远的雾

开通文学城博客,记录日常的生活与遐想。
个人资料
正文

华裔教授新算法:将颠覆DNA检测方式

(2026-02-23 05:44:53) 下一个

最近朋友微信发来的一篇报道,介绍的是耶鲁大学医学信息学的助理教授程浩宇(Haoyu Cheng)。他近期在《自然》(Nature)杂志上发表了一项名为 hifiasm (ONT) 的突破性算法。这个名字听起来很深奥,只有拆解开来,才能体会到它的突破性创新和意义。

这里的 Hifiasm 是算法的名字,“HiFi”代表高保真,意味着它追求像高级音响一样的精准度,而“asm”则是“拼图师”(Assembler)的缩写。至于后缀 ONT(Oxford Nanopore Technologies)则代表了目前国际上最先进的“纳米孔”测序技术。过去,这二者就像是两个跑道上的工匠,很难联手做点什么。HiFi 追求极度精准但成本昂贵,ONT 则擅长处理超长片段但过程粗糙,容易出错。程教授的最新贡献,本质上是开发了一套聪明的“纠错系统”,让原本不兼容的两套技术完美合体,让电脑能用相对廉价粗糙的 ONT 数据,拼接出像 HiFi 一样高清生命图谱。

这种技术突破,彻底改变了过往人们解读 DNA 的方式。如果把人体 DNA 比作一本拥有 30 亿个字符的超级巨著,那么DNA测序过程就像是把书撕碎成无数片段再重新拼合。传统算法在处理大量重复信息时非常吃力,往往需要耗费高昂的成本去获取超长且极高质量的生物样本。程教授的新算法则像是一位逻辑缜密的超级玩家,不仅能从普通质量、甚至略显模糊的数据中精准还原生命蓝图,更在效率上比现有方法快了整整 10 倍,将原本需要数周的计算缩短至一天,大幅降低了对昂贵实验设备的依赖和成本。

这种效率与精度的飞跃在医学和法医学领域具有惊人的应用价值。在医学上,它实现了“端到端”(Telomere-to-Telomere)的完整组装。所谓“端到端”,就是指从染色体的最左端一直无缝读取到最右端,不留下任何一个缺口。对于像脊髓性肌萎缩症(SMA)这样由高度相似基因导致的遗传病,新算法能像高清摄像头一样分辨并标示出其细微的致病变异。而在警方破案方面,这项技术更是“陈年积案”的克星。过去,犯罪现场留下的血迹或毛发往往因年代久远而严重降解,DNA 质量极差,导致传统方法无法得出结果。程教授的算法则能“变废为宝”,从这些破碎严重的样本中拼凑出关键完整证据,从而破解过去难以破解的案件。

程浩宇教授是一位跨界科学家的杰出代表,他本科就读于合肥科技大学计算机,博士毕业于中国科技大学计算机科学专业。博士后在哈佛医学院及其顶尖的丹纳-法伯癌症研究所(Dana-Farber Cancer Institute),师从生物信息学泰斗李恒教授。哈佛期间他将计算机算法的强大算力引入了生物医学最前沿。他曾主导“人类泛基因组”等国际项目,致力于打破基因研究的族群偏见,构建涵盖全人类多样性的参考地图。

程教授是2024年9月加入耶鲁的。目前,他在耶鲁领导的研究小组正致力于更宏大的目标。他不仅在研究人类,还通过算法重建各种动植物的基因组,这对于考古学溯源人类历史、保护濒危物种具有深远影响。他现在所做的工作,本质上是在用计算机的语言为全人类构建一套精准的生命导航系统。这种从算法入手、为医学生物服务的跨界创新,不仅展示了个人卓越的科研实力,更彰显了计算科学在促进人类健康方面的无限潜力。

我相信,像程教授这样优秀的华裔学者在美国还有很多。年龄上看,程教授还很年轻,还有大把的时间继续施展才华,取得更大的成就。

2026.2.22 于美国

(声明:我不学科学的,只是想以普通人的视角弄明白这件事的意义,欢迎业内朋友跟帖补充点评)

[ 打印 ]
阅读 ()评论 (10)
评论
goodmum 回复 悄悄话 谢谢介绍,谢谢认真
远远的雾 回复 悄悄话 回复‘水沫’的评论:谢谢你的跟帖。看不太懂应该比较正常,毕竟那些词太专业。但能得到总体的印象就可以了,我是觉得这个年轻的教授挺了不起的。
远远的雾 回复 悄悄话 回复‘白钉’的评论:收到了你的悄悄话,我也试着帮你贴了一下,看来是有字数限制,也恰好停在你的帖子的那个部位。或面大部分都贴不上。我看了一下你的解释,至少认为程教授的算法算是一种优化,算不上革命。这里我需要检讨一下,革命这个词是我擅自用的,原来的英文文章里并没有这个词。抱歉我的介绍有点用力过猛了。所以“优化”应该更准确一些吧。“革命”有点太轰动。谢谢你的长篇点评。不如哪一天你抽空专门写一下这件事。作为博文发出来,应该没有字数限制。
水沫 回复 悄悄话 不太懂,听起来了不起。。。
白钉 回复 悄悄话 回复‘远远的雾 ’
我的评论还没完,怎么贴不上全,总是截断。是网站限制字数还是怎的?我把全文发到给你的‘悄悄话’去了。
远远的雾 回复 悄悄话 回复‘白钉’的评论:谢谢拍砖,没问题。你是专家,有资格说。看来我之前看的是一篇科普的文章,来自耶鲁网站,当时感觉挺兴奋,于是分享给大家。谢谢你的分享!希望有更多的大师进来参与讨论。
白钉 回复 悄悄话 来凑个热闹,拍个砖头。年轻有为的科学家值得鼓励,但我们也不能捧杀。

首先,博主对 Hifiasm?ONT 的描述显然带有一定的宣传色彩,把它塑造成“革命性突破”。然而,从严格的基因组学与算法研究角度来看,这项工作更准确地说是一种工程层面的重要改进,而非范式级别的颠覆。

一:从 DNA 测序的历史成本到性价比分析
DNA 测序成本在过去四十年间经历了指数级下降。20 世纪 80–90 年代的 Sanger 方法,每个碱基成本高达 1–10 美元;进入 2000 年代后,短读长测序将成本压至每 kb 数美分。如今的长读长技术更进一步:PacBio HiFi 的成本约 0.02–0.05 美元/Mbp,而 ONT 甚至低至 0.0005–0.002 美元/Mbp。这是六到七个数量级的下降,彻底改变了基因组学的经济结构。

当前测序主要依赖两条技术路线:
PacBio HiFi 通过让同一 DNA 分子在环状模板中被 DNA 聚合酶重复读取十余至二十余次,以统计共识将错误率压低至
白钉 回复 悄悄话 一:从 DNA 测序的历史成本到性价比分析
DNA 测序成本在过去四十年间经历了指数级下降。20 世纪 80–90 年代的 Sanger 方法,每个碱基成本高达 1–10 美元;进入 2000 年代后,短读长测序将成本压至每 kb 数美分。如今的长读长技术更进一步:PacBio HiFi 的成本约 0.02–0.05 美元/Mbp,而 ONT 甚至低至 0.0005–0.002 美元/Mbp。这是六到七个数量级的下降,彻底改变了基因组学的经济结构。

当前测序主要依赖两条技术路线:
PacBio HiFi 通过让同一 DNA 分子在环状模板中被 DNA 聚合酶重复读取十余至二十余次,以统计共识将错误率压低至
白钉 回复 悄悄话 来凑个热闹,拍个砖头。年轻有为的科学家值得鼓励,但我们也不能捧杀。

首先,博主对 Hifiasm?ONT 的描述显然带有一定的宣传色彩,把它塑造成“革命性突破”。然而,从严格的基因组学与算法研究角度来看,这项工作更准确地说是一种工程层面的重要改进,而非范式级别的颠覆。

一:从 DNA 测序的历史成本到性价比分析
DNA 测序成本在过去四十年间经历了指数级下降。20 世纪 80–90 年代的 Sanger 方法,每个碱基成本高达 1–10 美元;进入 2000 年代后,短读长测序将成本压至每 kb 数美分。如今的长读长技术更进一步:PacBio HiFi 的成本约 0.02–0.05 美元/Mbp,而 ONT 甚至低至 0.0005–0.002 美元/Mbp。这是六到七个数量级的下降,彻底改变了基因组学的经济结构。

当前测序主要依赖两条技术路线:
PacBio HiFi 通过让同一 DNA 分子在环状模板中被 DNA 聚合酶重复读取十余至二十余次,以统计共识将错误率压低至
白钉 回复 悄悄话 来凑个热闹,拍个砖头。年轻有为的科学家值得鼓励,但我们也不能捧杀。

首先,博主对 Hifiasm?ONT 的描述显然带有一定的宣传色彩,把它塑造成“革命性突破”。然而,从严格的基因组学与算法研究角度来看,这项工作更准确地说是一种工程层面的重要改进,而非范式级别的颠覆。

一:从 DNA 测序的历史成本到性价比分析
DNA 测序成本在过去四十年间经历了指数级下降。20 世纪 80–90 年代的 Sanger 方法,每个碱基成本高达 1–10 美元;进入 2000 年代后,短读长测序将成本压至每 kb 数美分。如今的长读长技术更进一步:PacBio HiFi 的成本约 0.02–0.05 美元/Mbp,而 ONT 甚至低至 0.0005–0.002 美元/Mbp。这是六到七个数量级的下降,彻底改变了基因组学的经济结构。

当前测序主要依赖两条技术路线:
PacBio HiFi 通过让同一 DNA 分子在环状模板中被 DNA 聚合酶重复读取十余至二十余次,以统计共识将错误率压低至
登录后才可评论.