关于围绕这一组数据的种种争议,国际数据基因库GISAID今天发布了一个声明,除了证实更新数据确实会导致数据无法获取之外,重点批评了一组国际学者在未经数据发布者同意情况下,抢先发表自己根据该数据进行的分析,表示这违反了数据库的规定。
从技术上说,这涉及到论文所用数据应该何时公布于众的问题。过去,数据一般是与论文的发表同步公布的。但现在很多论文先以预印本形式发在网上,那么其中用到的数据该何时发布?如果也同步发布,其他人就可能抢先发表论文。为了防止这个问题,我觉得大家的共识是,你可以下载数据做分析,但应该等到原作者的论文发表之后,再发表自己的结果。如果原作者的论文最终未能发表,那么你应该与原作者协商,争取与对方合作,或获得对方允许之后再发表。
但是这次的数据,是与新冠起源紧密相关的,涉及到全人类的安全,而不是一般的科研数据。作为中国CDC,有责任尽早向全球研究人员和卫生机构提供这些数据,而不应该斤斤计较于论文发表的先后。事实上这些数据早在去年6月初就上传到GISAID了,但一直没有公开。希望这些数据目前确实是因为更新而暂时不能获取,而不是为了不让别人先发表文章而隐藏起来。
https://gisaid.org/statements-clarifications/data-availability/
目前GISAID 里有关 Environment 的有 11,655 个序列。但Debarre 文章附录B中的序列是没了。
我随便选了个 EPI_ISL_13052310 是没有。