远远的雾

开通文学城博客，记录日常的生活与遐想。

首页文章列表博文目录

个人资料

远远的雾

给我悄悄话

博客访问：

华裔教授新算法：将颠覆DNA检测方式

(2026-02-23 05:44:53) 下一个

最近朋友微信发来的一篇报道，介绍的是耶鲁大学医学信息学的助理教授程浩宇（Haoyu Cheng）。他近期在《自然》（Nature）杂志上发表了一项名为 hifiasm (ONT) 的突破性算法。这个名字听起来很深奥，只有拆解开来，才能体会到它的突破性创新和意义。

这里的 Hifiasm 是算法的名字，“HiFi”代表高保真，意味着它追求像高级音响一样的精准度，而“asm”则是“拼图师”（Assembler）的缩写。至于后缀 ONT（Oxford Nanopore Technologies）则代表了目前国际上最先进的“纳米孔”测序技术。过去，这二者就像是两个跑道上的工匠，很难联手做点什么。HiFi 追求极度精准但成本昂贵，ONT 则擅长处理超长片段但过程粗糙，容易出错。程教授的最新贡献，本质上是开发了一套聪明的“纠错系统”，让原本不兼容的两套技术完美合体，让电脑能用相对廉价粗糙的 ONT 数据，拼接出像 HiFi 一样高清生命图谱。

这种技术突破，彻底改变了过往人们解读 DNA 的方式。如果把人体 DNA 比作一本拥有 30 亿个字符的超级巨著，那么DNA测序过程就像是把书撕碎成无数片段再重新拼合。传统算法在处理大量重复信息时非常吃力，往往需要耗费高昂的成本去获取超长且极高质量的生物样本。程教授的新算法则像是一位逻辑缜密的超级玩家，不仅能从普通质量、甚至略显模糊的数据中精准还原生命蓝图，更在效率上比现有方法快了整整 10 倍，将原本需要数周的计算缩短至一天，大幅降低了对昂贵实验设备的依赖和成本。

这种效率与精度的飞跃在医学和法医学领域具有惊人的应用价值。在医学上，它实现了“端到端”（Telomere-to-Telomere）的完整组装。所谓“端到端”，就是指从染色体的最左端一直无缝读取到最右端，不留下任何一个缺口。对于像脊髓性肌萎缩症（SMA）这样由高度相似基因导致的遗传病，新算法能像高清摄像头一样分辨并标示出其细微的致病变异。而在警方破案方面，这项技术更是“陈年积案”的克星。过去，犯罪现场留下的血迹或毛发往往因年代久远而严重降解，DNA 质量极差，导致传统方法无法得出结果。程教授的算法则能“变废为宝”，从这些破碎严重的样本中拼凑出关键完整证据，从而破解过去难以破解的案件。

程浩宇教授是一位跨界科学家的杰出代表，他本科就读于合肥科技大学计算机，博士毕业于中国科技大学计算机科学专业。博士后在哈佛医学院及其顶尖的丹纳-法伯癌症研究所（Dana-Farber Cancer Institute），师从生物信息学泰斗李恒教授。哈佛期间他将计算机算法的强大算力引入了生物医学最前沿。他曾主导“人类泛基因组”等国际项目，致力于打破基因研究的族群偏见，构建涵盖全人类多样性的参考地图。

程教授是2024年9月加入耶鲁的。目前，他在耶鲁领导的研究小组正致力于更宏大的目标。他不仅在研究人类，还通过算法重建各种动植物的基因组，这对于考古学溯源人类历史、保护濒危物种具有深远影响。他现在所做的工作，本质上是在用计算机的语言为全人类构建一套精准的生命导航系统。这种从算法入手、为医学生物服务的跨界创新，不仅展示了个人卓越的科研实力，更彰显了计算科学在促进人类健康方面的无限潜力。

我相信，像程教授这样优秀的华裔学者在美国还有很多。年龄上看，程教授还很年轻，还有大把的时间继续施展才华，取得更大的成就。

2026.2.22 于美国

（声明：我不学科学的，只是想以普通人的视角弄明白这件事的意义，欢迎业内朋友跟帖补充点评）

[ 打印 ]

[ 加入书签 ]

阅读 () ┆ 评论 (10)

goodmum 2026-02-23 18:57:31 回复悄悄话谢谢介绍，谢谢认真

远远的雾 2026-02-23 17:24:08 回复悄悄话回复‘水沫’的评论：谢谢你的跟帖。看不太懂应该比较正常，毕竟那些词太专业。但能得到总体的印象就可以了，我是觉得这个年轻的教授挺了不起的。

远远的雾 2026-02-23 17:21:29 回复悄悄话回复‘白钉’的评论：收到了你的悄悄话，我也试着帮你贴了一下，看来是有字数限制，也恰好停在你的帖子的那个部位。或面大部分都贴不上。我看了一下你的解释，至少认为程教授的算法算是一种优化，算不上革命。这里我需要检讨一下，革命这个词是我擅自用的，原来的英文文章里并没有这个词。抱歉我的介绍有点用力过猛了。所以“优化”应该更准确一些吧。“革命”有点太轰动。谢谢你的长篇点评。不如哪一天你抽空专门写一下这件事。作为博文发出来，应该没有字数限制。

水沫 2026-02-23 17:10:05 回复悄悄话不太懂，听起来了不起。。。

白钉 2026-02-23 16:34:55 回复悄悄话回复‘远远的雾 ’
我的评论还没完，怎么贴不上全，总是截断。是网站限制字数还是怎的？我把全文发到给你的‘悄悄话’去了。

远远的雾 2026-02-23 15:56:47 回复悄悄话回复‘白钉’的评论：谢谢拍砖，没问题。你是专家，有资格说。看来我之前看的是一篇科普的文章，来自耶鲁网站，当时感觉挺兴奋，于是分享给大家。谢谢你的分享！希望有更多的大师进来参与讨论。

白钉 2026-02-23 13:22:32 回复悄悄话来凑个热闹，拍个砖头。年轻有为的科学家值得鼓励，但我们也不能捧杀。

首先，博主对 Hifiasm?ONT 的描述显然带有一定的宣传色彩，把它塑造成“革命性突破”。然而，从严格的基因组学与算法研究角度来看，这项工作更准确地说是一种工程层面的重要改进，而非范式级别的颠覆。

一：从 DNA 测序的历史成本到性价比分析
DNA 测序成本在过去四十年间经历了指数级下降。20 世纪 80–90 年代的 Sanger 方法，每个碱基成本高达 1–10 美元；进入 2000 年代后，短读长测序将成本压至每 kb 数美分。如今的长读长技术更进一步：PacBio HiFi 的成本约 0.02–0.05 美元/Mbp，而 ONT 甚至低至 0.0005–0.002 美元/Mbp。这是六到七个数量级的下降，彻底改变了基因组学的经济结构。

当前测序主要依赖两条技术路线：
PacBio HiFi 通过让同一 DNA 分子在环状模板中被 DNA 聚合酶重复读取十余至二十余次，以统计共识将错误率压低至

白钉 2026-02-23 13:20:22 回复悄悄话一：从 DNA 测序的历史成本到性价比分析
DNA 测序成本在过去四十年间经历了指数级下降。20 世纪 80–90 年代的 Sanger 方法，每个碱基成本高达 1–10 美元；进入 2000 年代后，短读长测序将成本压至每 kb 数美分。如今的长读长技术更进一步：PacBio HiFi 的成本约 0.02–0.05 美元/Mbp，而 ONT 甚至低至 0.0005–0.002 美元/Mbp。这是六到七个数量级的下降，彻底改变了基因组学的经济结构。

当前测序主要依赖两条技术路线：
PacBio HiFi 通过让同一 DNA 分子在环状模板中被 DNA 聚合酶重复读取十余至二十余次，以统计共识将错误率压低至

白钉 2026-02-23 13:18:35 回复悄悄话来凑个热闹，拍个砖头。年轻有为的科学家值得鼓励，但我们也不能捧杀。

首先，博主对 Hifiasm?ONT 的描述显然带有一定的宣传色彩，把它塑造成“革命性突破”。然而，从严格的基因组学与算法研究角度来看，这项工作更准确地说是一种工程层面的重要改进，而非范式级别的颠覆。

一：从 DNA 测序的历史成本到性价比分析
DNA 测序成本在过去四十年间经历了指数级下降。20 世纪 80–90 年代的 Sanger 方法，每个碱基成本高达 1–10 美元；进入 2000 年代后，短读长测序将成本压至每 kb 数美分。如今的长读长技术更进一步：PacBio HiFi 的成本约 0.02–0.05 美元/Mbp，而 ONT 甚至低至 0.0005–0.002 美元/Mbp。这是六到七个数量级的下降，彻底改变了基因组学的经济结构。

当前测序主要依赖两条技术路线：
PacBio HiFi 通过让同一 DNA 分子在环状模板中被 DNA 聚合酶重复读取十余至二十余次，以统计共识将错误率压低至

白钉 2026-02-23 13:17:45 回复悄悄话来凑个热闹，拍个砖头。年轻有为的科学家值得鼓励，但我们也不能捧杀。

首先，博主对 Hifiasm?ONT 的描述显然带有一定的宣传色彩，把它塑造成“革命性突破”。然而，从严格的基因组学与算法研究角度来看，这项工作更准确地说是一种工程层面的重要改进，而非范式级别的颠覆。

一：从 DNA 测序的历史成本到性价比分析
DNA 测序成本在过去四十年间经历了指数级下降。20 世纪 80–90 年代的 Sanger 方法，每个碱基成本高达 1–10 美元；进入 2000 年代后，短读长测序将成本压至每 kb 数美分。如今的长读长技术更进一步：PacBio HiFi 的成本约 0.02–0.05 美元/Mbp，而 ONT 甚至低至 0.0005–0.002 美元/Mbp。这是六到七个数量级的下降，彻底改变了基因组学的经济结构。

当前测序主要依赖两条技术路线：
PacBio HiFi 通过让同一 DNA 分子在环状模板中被 DNA 聚合酶重复读取十余至二十余次，以统计共识将错误率压低至

登录后才可评论.