溯源调查：200多个被删早期新冠数据已恢复了13个…zt

大约一年前，来自武汉新冠早期病例的200多个病毒样本的基因序列从一个在线科学数据库中消失了。

现在，西雅图的一位研究人员报告说，通过对存储在谷歌云上的文件进行分析，他已经恢复了其中的13个原始序列——这是一个有趣的新信息，可以用来识别病毒可能是何时，以及如何从蝙蝠或其他动物传播到人类的。

周二发布的新分析支持了早些时候的说法，即在2019年12月与生鲜市场有关的最初疫情暴发之前，多种冠状病毒可能已经在武汉传播开来。

目前拜登政府正在调查这种名为SARS-CoV-2的病毒的有争议来源。这项研究既没有加强，也没有否定病原体是从武汉一家著名实验室泄露出来的假设。但它确实提出了一个问题，那就是原始序列为何被删除，并表明可能有更多信息可以从互联网的偏远角落恢复。

没有参与这项研究的亚利桑那大学(University of Arizona)进化生物学家迈克尔·伍罗贝(Michael Worobey)说：“这无疑是一项伟大的侦查工作，它大大推进了了解SARS-CoV-2起源的努力。”

撰写这份新报告的弗雷德·哈钦森癌症研究中心(Fred Hutchinson Cancer Research Center)的病毒学家杰斯·布鲁姆(Jesse Bloom)称，这些序列被删除是可疑的。他在文中写道，“删除这些序列似乎是为了掩盖它们的存在，”该论文尚未经过同行评审或发表在科学期刊上。

布鲁姆和伍罗贝属于一个直言不讳的科学家团体，他们呼吁对大流行如何开始进行更多研究。在5月发表的一封信中，他们抱怨说，没有足够的信息来确定新冠病毒的传播是由于实验室泄漏，还是由于与实验室外的受感染动物接触，从而传到人类身上。

病毒样本的基因序列提供了关于SARS-CoV-2如何从另一种动物（很可能是蝙蝠）转移到我们这个物种的关键线索。最宝贵的是大流行早期的序列，因为它们让科学家更接近最初的溢出事件。

布鲁姆在审查各个研究小组公布的基因数据时，看到了2020年3月的一项研究，其中包含武汉大学科学家收集的241个基因序列的信息。电子表格显示，科学家们已经将这些序列上传到一个名为“序列读取档案”(Sequence Read Archive)的在线数据库中，该数据库由美国政府的国家医学图书馆(National Library of Medicine)管理。

但当布鲁姆本月早些时候在数据库中查找武汉的基因序列时，他得到的唯一结果是“项目未找到”。

他很困惑，回到电子表格中寻找更多的线索。它显示，这241个序列是由武汉人民医院一位名叫傅爱思（音）的科学家收集的。通过搜索医学文献，布鲁姆最终发现了傅爱思及其同事于2020年3月在网上发布的另一项研究，该研究描述了一种针对SARS-CoV-2的新实验测试。三个月后，中国科学家在一份科学杂志上发表了这篇文章。

在这项研究中，科学家们写道，他们观察了45份鼻拭子样本，这些样本取自“疑似Covid-19流行初期的门诊患者”。然后他们在棉签中寻找部分SARS-CoV-2的遗传物质。研究人员没有公布他们从样本中找到的基因的实际序列，只公布了一些病毒的突变。

但是一些线索向布鲁姆表明，这些样本是241个丢失序列的来源。这些论文没有解释为什么这些序列被上传到序列读取档案后又消失了。

通过仔细研究档案，布鲁姆发现很多序列都以文件的形式存储在谷歌云上。他报告说，每个序列都包含在云中的一个文件内，文件的名称都有相同的基本格式。

布鲁姆将武汉的一个遗失序列的编码换了进去。突然，他得到了序列。他总共用这种方法从云中恢复了13个序列。

有了这些新数据，布鲁姆再次回顾了大流行的早期阶段。他将这13个序列与其他已发表的早期冠状病毒序列结合，希望在构建SARS-CoV-2病毒族谱方面取得进展。

弄清SARS-CoV-2从蝙蝠病毒演化而来的所有步骤一直是一个挑战，因为科学家需要研究的样本数量仍然有限。一些最早的样本来自2019年12月暴发疫情的武汉华南海鲜批发市场。

但这些市场上的病毒实际上有三种额外的突变，而这些突变在几周后收集的SARS-CoV-2样本中是缺失的。换句话说，这些后来的病毒看起来更像在蝙蝠身上发现的冠状病毒，这支持了这种病毒的一些早期谱系没有经过海鲜市场的观点。

布鲁姆发现，他从云中恢复的被删除序列也没有这些额外的突变。“它们与蝙蝠冠状病毒的相似度比华南海鲜市场的病毒高三倍，”布鲁姆说。

2020年1月，武汉华南海鲜市场。 DAKE KANG/ASSOCIATED PRESS

他说，这表明当SARS-CoV-2进入市场时，它已经在武汉或其他地方传播了一段时间。他认为，市场的病毒并不代表2019年底已经传播开来的冠状病毒的全部多样性。

他说：“也许我们根据测序得出的情况和武汉早期存在的情况可能有些偏差。”

布鲁姆在他的报告中承认，必须通过对病毒序列的更深入分析来证实这一结论。沃罗比说，他和他的同事正在对SARS-CoV-2基因进行大规模研究，以更好地了解其起源，他们现在将添加布鲁姆恢复的13个病毒序列。

“这些额外的数据将在这项工作中发挥重要作用，”沃罗比说。

目前尚不清楚一开始为什么这些宝贵的信息丢失了。科学家可以通过向序列读取档案的管理员发送电子邮件来请求删除文件。管理该档案的国家医学图书馆表示，这13个序列是在去年夏天删除的。

“这些SARS-CoV-2序列于2020年3月提交给SRA发表，随后在2020年6月被提交它的调查人员要求撤回，”美国国立卫生研究院发言人雷纳特·迈尔斯(Renate Myles)说。

她说，调查员——她未透露其姓名——告诉档案管理员，序列正在更新，并将被添加到另一个数据库中。但是布鲁姆已经搜索了他知道的每一个数据库，都没有找到。“显然，我不能排除这些序列在某个其他数据库或网页上的某个地方，但我无法在我该找的地方找到它们，”他说。

得出13个序列的该2020年实验研究的合著者中，有三人没有立即回复就布鲁姆的发现发出的询问电邮。该研究没有提供另一位合著者傅爱思的联系信息，他的名字也出现在另一项研究的电子表格中。

一些科学家觉得，删除这些序列不见得就等于背后有什么不可告人的事。犹他大学(University of Utah)病毒学家斯蒂芬·戈德斯坦(Stephen Goldstein)说：“我不太明白这怎么就意味着掩盖了。”

戈德斯坦指出，实验研究列出了武汉研究人员在其中发现的个体突变。他说，虽然完整的序列不再在档案中，但关键信息已经公开了一年多。它只是被塞在一种研究人员难以找到的格式中。

“我们都错过了这篇相对不为人知的论文，”戈德斯坦说。

“你真的说不好为什么它们会被删除，”布鲁姆在接受采访时承认。“你可以说移除它们的实际后果是人们没有注意到它们的存在。”他还指出，中国政府下令销毁一些早期病毒样本，并禁止未经批准发表有关冠状病毒的论文。

而对沃罗比来说，他仍然想要答案。“我希望我们听到那些生成但随后删除这些关键序列的作者的意见，以便我们能够更多地了解他们这样做的动机，”他说。“从表面上看，这确实很奇怪，确实需要一个解释。”

不管这13个序列下落如何，布鲁姆现在想知道在网上还能发现什么样的线索。为了重建Covid-19的起源，所有这些线索可能都很重要。

“理想情况下，我们需要尝试找到尽可能多的其他早期序列，”他说。“而且我认为这项研究表明我们应该所有地方都看看。”

我的梦想