抽象的
犹太人血统问题已争论了两个多世纪,至今仍未得到解决。“莱茵兰假说”将东欧犹太人描绘成一个“孤立的群体”,源自一小群向东迁移并迅速扩张的德国犹太人。而“可萨假说”则认为东欧犹太人的后裔是可萨人,可萨人是突厥部族的混合体,他们在公元初定居高加索地区,并于8世纪皈依犹太教。美索不达米亚和希腊罗马的犹太人不断巩固着犹太化的帝国,直到13世纪。帝国崩溃后,犹太-可萨人逃往东欧。因此,欧洲犹太人的崛起可以用犹太-可萨人的贡献来解释。然而,迄今为止,由于缺乏高加索人群的全基因组数据,可萨人的贡献仅基于经验估计。近期对现代高加索人群的测序促使我们重新审视可萨假说,并将其与莱茵兰假说进行比较。我们应用了广泛的群体遗传学分析来比较这两个假说。我们的研究结果支持可萨假说,并将欧洲犹太人的基因组描绘成近东-高加索、欧洲和闪米特血统的混合体,从而巩固了先前关于犹太人血统的相互矛盾的报道。我们进一步描述了高加索人群之间的一个重大差异,这一差异可以用犹太人早期在南高加索和中高加索地区的存在来解释。我们的研究结果对于塑造高加索地区遗传多样性的人口因素以及医学研究具有重要意义。
介绍
当代东欧犹太人是现代犹太社区中最大的民族宗教群体,约占全球 1300 多万犹太人的 90%(Ostrer 2001)。据推测,东欧犹太人来自中欧的一个小创始群体,并被认为保持了高度的族内通婚,因此被认为是“群体孤立”和疾病研究中宝贵的受试者(Carmeli 2004),尽管他们的祖先在遗传学家、历史学家和语言学家之间仍然存在争议(Wexler 1993;Brook 2006;Sand 2009;Behar et al. 2010)。最近,一些大规模研究试图通过对欧亚犹太人和非犹太人群进行基因分型来绘制犹太人群的遗传多样性(Conrad et al. 2006;Kopelman et al. 2009;Behar et al. 2010)。有趣的是,其中一些研究将高加索人群与东欧犹太人联系起来,这与中欧创始群体的叙述相矛盾。由于校正人口结构和使用合适的对照在医学研究中至关重要,因此检验那些旨在解释东欧和中欧犹太人血统的假设至关重要。任何假设面临的主要挑战之一是解释犹太人在东欧的大规模存在,据估计,20世纪初东欧犹太人的数量约为800万。我们通过应用多种分析方法——包括三群体检验、主成分分析、生物地理起源分析、混合分析、血统同一性分析 (IBD)、等位基因共享距离分析和单亲分析——来研究欧洲犹太人的基因结构,并根据两种主流假设检验其准确性。这两种假设要么描绘了单一中东血统,要么描绘了中东-高加索-欧洲混合血统,以解释东欧犹太人的血统。
“莱茵兰假说”认为,现代欧洲犹太人是犹大的后裔——犹大人是闪米特人起源的以色列-迦南部落(图 1和2)(补充说明S1,补充材料在线)。它提出了两次大规模的移民浪潮:第一次发生在穆斯林征服巴勒斯坦(公元 638 年)后的 200 年间,由离开穆斯林巴勒斯坦前往欧洲的虔诚的犹太人组成( Dinur 1961)。这些移民是否加入了现有的犹太化的希腊罗马社区尚不清楚,他们对南欧基因库的贡献程度也不清楚。第二次移民浪潮发生在 15 世纪初,一群 50,000 名德国犹太人向东迁移,并带来了长达半个世纪的婴儿潮时代( Atzmon 等人 2010)。莱茵兰假说预测欧洲犹太人具有中东血统,并且欧洲犹太人之间存在高度基因相似性( Ostrer 2001; Atzmon 等人 2010; Behar 等人 2010)。
与之竞争的“可萨人假说”认为东欧犹太人是可萨人的后裔(补充说明S1,补充材料在线)。可萨人是由斯拉夫人、斯基泰人、匈奴-保加利亚人、伊朗人、阿兰人和土耳其部落组成的联盟,他们在中北高加索地区建立了铁器时代晚期最强大的帝国之一,并于公元 8 世纪皈依犹太教(图 1和2)( Polak 1951; Brook 2006; Sand 2009)。由这些部落融合而形成的可萨人、亚美尼亚人和格鲁吉亚人群体( Polak 1951)随后经历了相对隔离、分化和原地遗传漂变( Balanovsky 等人 2011)。圣经和考古记录暗示公元前晚期几个世纪原始犹太人和亚美尼亚人之间活跃的贸易关系( Polak 1951; Finkelstein 和 Silberman 2002),这可能导致了这两个人群之间的小规模混合,以及犹太人在高加索地区的存在。皈依犹太教后,犹太-可萨人的人口结构因犹太人从拜占庭帝国和哈里发国多次迁徙到可萨帝国而进一步改变(图 1)。帝国崩溃和黑死病(1347-1348 年)爆发后,犹太-可萨人向西逃亡( Baron 1993),定居在正在崛起的波兰王国和匈牙利( Polak 1951),并最终扩散到中欧和西欧。可萨人假说认为欧洲犹太人的血统来自高加索、欧洲和中东。此外,欧洲犹太社群在血统和基因异质性方面预计会存在差异。可萨假说也为高加索群体的基因多样性提供了两种解释:一是6至10世纪期间多次涌入可萨的移民潮;二是留在高加索地区的犹太-可萨人。
试图推断欧洲犹太人血统的遗传学研究得到了不一致的结果。一些研究指出欧洲犹太人与阿迪格人等高加索人群之间存在遗传相似性(Behar 等人,2003 年;Levy-Coffman,2005 年;Kopelman 等人,2009 年),而一些研究则指出与巴勒斯坦人等中东人群的相似性(Hammer 等人,2000 年;Nebel 等人,2000 年),还有人指出与意大利人等南欧人群的相似性(Atzmon 等人,2010 年;Zoossmann-Diskin,2010 年)。这些研究大多是在前基因组时代使用单亲标记并包括不同的参考人群进行的,这使得它们的结果难以比较。最近采用全基因组数据的研究报告显示,欧洲犹太人与德鲁兹人、意大利人和中东人群具有高度的遗传相似性(Atzmon 等人,2010 年;Behar 等人,2010 年)。
尽管莱茵兰假说和可萨假说都描述了犹太人的血统,而且它们并不互相排斥,但它们还是有明显的区别,因为高加索人和闪米特人被认为是种族和语言上截然不同的(Patai 和 Patai 1975;Wexler 1993;Balanovsky 等人 2011)。根据这两种假说,犹太人都是接受犹太教、移居到其他地方并维持其宗教信仰直至今日的部落,因此,预计他们会与邻近人群表现出某些差异。因为这两种假说都认为东欧犹太人大约在同一时间(13 世纪和 15 世纪)抵达东欧,所以我们假设他们与邻近人群经历了相似的低而固定的混合率,估计在过去 50 代中每代为 0.5%(Ostrer 2001)。这些相对较近的混合很可能重塑了所有欧洲犹太人的人口结构,并增加了他们与高加索或中东人群的遗传距离。因此,我们并不期望与可萨人和犹太人群实现完美的匹配,而是评估他们的亲缘关系。
材料和方法
数据收集
完整数据集包含来自8个犹太群体和74个非犹太群体的1,287名无血缘关系个体,涉及超过531,315个常染色体单核苷酸多态性(SNP)。使用PLINK中的indep-pairwise算法,在200个SNP的窗口中(每次滑动窗口25个SNP),移除强LD( r2 > 0.4)中任意一对SNP中的一个,创建连锁不平衡(LD )剪枝数据集(Purcell等人,2007)。最终共计获得221,558个常染色体SNP,除使用完整数据集的血统相同(IBD)分析外,所有常染色体分析均选择这些SNP。这两个数据集均来自http://www.evolutsioon.ut.ee/MAIT/jew_data/(上次访问时间为 2012 年 12 月 19 日)(Behar 等人,2010 年)。线粒体 DNA (mtDNA) 和 Y 染色体数据来自Behar 等人(2010 年)先前发表的数据集。这些标记的选择与先前报告的数据集所达到的系统发育分辨率水平相匹配,并代表了一组多样化的标记。共收集了 27 个人群的 11,392 个样本,用于 mtDNA(6,089 个)和 Y 染色体(5,303 个)分析(补充表 S1和补充数据,补充材料在线)。
术语
在日常用语中,东欧和中欧犹太人实际上与阿什肯纳兹犹太人同义,并被视为一个整体(Tian 等人,2008 年;Atzmon 等人,2010 年;Behar 等人,2010 年)。然而,该术语具有误导性,因为希伯来语“Ashkenaz”在中世纪拉比文献中用于指德国——这促成了现代东欧犹太人起源于莱茵河的说法。因此,我们避免使用“阿什肯纳兹犹太人”一词。犹太人大致细分为东欧(白俄罗斯、拉脱维亚、波兰和罗马尼亚)和中欧(德国、荷兰和奥地利)犹太人。与认为“阿什肯纳兹犹太人”不同于“塞法迪犹太人”的文献一致,我们排除了后者。完整的人口符号描述在补充表S3,在线补充材料。
替代人群的选择
由于古代犹太人和可萨人已被灭亡,他们的遗骸尚未测序,根据先前的研究(Levy-Coffman 2005;Kopelman 等人 2009;Atzmon 等人 2010;Behar 等人 2010),当代中东和高加索人群被用作替代人群。巴勒斯坦人被认为是原始犹太人,因为他们被认为与犹太人有着相似的语言、种族和地理背景,并与欧洲犹太人有着共同的祖先(Bonné-Tamir 和 Adam 1992;Nebel 等人 2000;Atzmon 等人 2010;Behar 等人 2010)。同样地,高加索格鲁吉亚人和亚美尼亚人被认为是原始可萨人,因为人们认为他们与可萨人来自同一基因群体(Polak 1951;Dvornik 1962;Brook 2006)。
三群体检验
f3统计数据使用等位基因频率差异来评估群体X与另外两个群体A和B 的混合情况,因此f 3( X ; A , B ) ( Reich 等人,2009 年)。如果X是A和B的混合,而不是遗传漂变的结果,则 f 3 将为负数。显著的负f 3 表示X群的祖先在与A和B分化之后经历了混合的历史。f3统计数据是使用TreeMix的threepop程序( Pickrell 和 Pritchard,2012 年)计算得出的,其中k = 500,针对 221,558 个 SNP 集。该测试不同于ADMIXTURE ( Alexander 等人,2009 年),后者报告与最可能的祖先的混合比例。
主成分分析
虽然常用的“多群体”主成分分析 (PCA) 具有许多吸引人的特性,但应谨慎使用,以避免由于群体选择和样本量变化而产生的偏差(Price 等人,2006 年;McVean,2009 年)。为了避免这些偏差,我们开发了一个简单的“双群体”框架,由三个样本量大且混合程度最低的“外群”群体——姆布提和比亚卡俾格米人(南非)、法国巴斯克人(欧洲)和汉族中国人(东亚)——和两个感兴趣的群体组成,所有群体的样本量均相等。该框架的基础是将显著 PC 的数量最小化为四个或更少(Tracy-Widom 检验,P < 0.01),并将前两个 PC 的解释方差部分最大化到 20% 以上。 PCA 计算使用EIGENSOFT软件包 ( Patterson 等人,2006 )中的 smartpca 进行。凸包使用 Matlab 的“convhull”函数计算,并围绕聚类质心绘制。两个目标种群之间的关联性通过其聚类的等量重叠来评估。小种群(<7 个样本)被排除在分析之外。
估计人口的生物地理起源
Novembre 等人(2008)提出了一种基于 PCA 的方法,可精确到欧洲几百公里范围内,以确定种群当前的生物地理起源。虽然这种方法没有隐含的历史模型,但它将遗传多样性与地理环境关联起来,因此可以成为研究生物地理学的有用工具。为了减少由大小不均的多个种群造成的偏差(Patterson 等人,2006;McVean,2009),我们采用了双种群框架,该框架包含三个外群和两个目标种群:一个在相关时间段内地理来源已知的种群,与所讨论的种群(如亚美尼亚人)和所讨论的种群(如东欧犹太人)聚集在一起。前四个种群被用作所讨论种群的训练集。PCA 计算按先前描述的方式进行。PC1-PC2 坐标的旋转角度按Novembre 等人(2008)的方法计算。简而言之,在每幅图中,旋转主成分分析 (PC) 轴,以找到使训练样本的 PC1 和 PC2 中值与其所在国家经纬度相关性之和最大化的角度。经纬度数据来自文献或该国的近似质心。测地线距离以公里为单位,使用 Matlab 函数“distance”计算。
混合物分析
在监督学习模式下,我们采用了类似结构的方法,就像 ADMIXTURE(Alexander 等人,2009)中实现的那样。ADMIXTURE根据指定祖先群体的等位基因频率来估计个体的祖先。我们使用ADMIXTURE的引导程序和默认参数来计算标准误差。我们在所有分析中都观察到了较低的标准误差(<0.05)。除南欧人外,其余人群均按其平均非洲和亚洲血统排序。在本分析中,三名荷兰犹太人与东欧犹太人归为一类。
IBD分析
为了检测 IBD 片段,我们使用不同的随机种子运行了10 次fastIBD,并按照Browning 和 Browning (2011)的方法合并结果。仅当合并分析的fastIBD分数小于 e –10时,片段才被视为 IBD 。这个低阈值对应于可能是 IBD 的长共享单倍型 (≥1 cM)。长域之间的短间隙 (<50 个索引) 被认为是假阴性和串联的 ( Browning 和 Browning 2011 )。通过找到每个欧洲犹太人和特定人群中所有其他个体之间最大的总 IBD 共享,获得了欧洲犹太人和不同人群之间的成对 IBD 片段。
等位基因共享距离

单亲分析

结果
为了证实莱茵兰假说和可萨假说确实描绘了不同的血统,我们评估了高加索人群与闪米特人群之间的背景混合程度。我们计算了巴勒斯坦人与六个高加索和欧亚人群之间的f3统计数据,并以非洲桑人作为外群,例如f3(巴勒斯坦人、桑人、亚美尼亚人)。土耳其人(-0.0013)、亚美尼亚人和格鲁吉亚人(-0.0019)、列兹金人和阿迪盖人(-0.0015)以及俄罗斯人(-0.0011)的f3结果显示,巴勒斯坦人与受试人群之间存在轻微但显著的混合(-26 < Z- score < -13)。由于亚美尼亚人和格鲁吉亚人在600代前就与土耳其人分道扬镳(Schonberg等人,2011),我们可以假设,他们大部分的混合血统源自该血统,且符合该地区典型的背景混合预期水平,而非近期与闪米特人群的混合。因此,欧洲犹太人和高加索人群之间的相似性不太可能源于共同的闪米特血统。
接下来,我们使用主成分分析 (PCA) 来识别能够捕捉数据中大部分信息的独立维度。PCA 采用了两种框架:一种是适用于所有人群的“多人群”框架(图 3),另一种是分别适用于欧亚人群以及俾格米人和汉族人群的框架(补充图S2,在线补充材料)和我们新颖的“双群体”框架(补充图S3,在线补充材料)。在所有分析中,所研究的样本都沿着全球遗传变异的两个公认的地理轴线排列:PC1(撒哈拉以南非洲与旧世界其他地区)和PC2(欧亚大陆东部与西部)( Li等人,2008年)。我们的研究结果揭示了地理上精细的群体,例如从西欧延伸到东欧的近乎对称的连续欧洲边缘、平行的高加索边缘和近东人群(补充图S1,补充材料在线)按土耳其-伊朗和德鲁兹人聚类(图3)组织。中东人口沿着贝都因人和近东人口之间的对角线形成梯度,这与他们的地理分布相似。其余埃及人和大部分沙特人的分布与中东人口分开。
根据莱茵兰假说或可萨假说,欧洲犹太人预计将与中东或高加索地区的原住民聚集在一起。所有PC分析的结果(图3,补充图S2和补充数据,在线补充材料)显示,超过 70% 的欧洲犹太人和几乎所有东欧犹太人都与格鲁吉亚、亚美尼亚和阿塞拜疆犹太人聚集在高加索地区(图 3和补充图S3,补充材料在线)。约 15% 的中欧犹太人与德鲁兹人聚居,其余的与塞浦路斯人聚居。所有欧洲犹太人的聚居地与中东聚居地截然不同。可萨假说的有力证据是欧洲犹太人与居住在古代可萨两端的人群聚居:亚美尼亚人、格鲁吉亚人和阿塞拜疆犹太人(图 1)。由于高加索人群在高加索地区相对孤立,且没有在可萨沦陷前高加索人群大规模迁徙到东欧和中欧的记录( Balanovsky 等人,2011),这些发现意味着欧洲犹太人和高加索人群有着共同的起源。
为了评估我们基于主成分分析方法识别人群生物地理起源的能力,我们首先尝试识别德鲁兹人的生物地理起源。德鲁兹宗教起源于11世纪,但其民族起源至今仍是诸多困惑和争论的根源(Hitti 1928)。我们将德鲁兹人的生物地理起源追溯到以下地理坐标:北纬38.6±3.45°,东经36.25±1.41°(补充图S4,补充材料在线)在近东(补充图S1,补充材料在线)。一半德鲁兹人紧密聚集在土耳其东南部,其余则散居在叙利亚北部和伊拉克一带。这些结果与Shlush等人(2008)利用线粒体DNA分析的结果一致。推断出的德鲁兹人地理位置被用于后续分析。
欧洲犹太人的地理起源因参考人群不同而有所差异(图 4和补充图S5,补充材料在线),但所有结果都集中在现代土耳其、亚美尼亚、格鲁吉亚和阿塞拜疆沿岸的南可萨利亚。在所有分析中,与中欧犹太人相比,东欧犹太人聚集得更紧密。东欧犹太人(北纬 38 ± 2.7°,东经 39.9 ± 0.4°)和中欧犹太人(北纬 35 ± 5°,东经 39.7 ± 1.1°)的地理坐标中,亚美尼亚人的偏差最小(图 4)。格鲁吉亚人也得到了类似的结果(补充图S5,补充材料在线)。值得注意的是,东欧犹太人的平均坐标距离可萨利亚南部边界(北纬 42.77°,东经 42.56°)560 公里,靠近萨曼达尔——公元 720 年至 750 年可萨利亚的首都(波拉克 1951 年)。
种群间基因流动的持续时间、方向和速率决定了混合比例和因血统而相同的染色体片段的总长度。混合计算是使用监督学习方法在结构化分析中进行的。与无监督方法相比,这种方法有许多优势,无监督方法不仅在假设K 个抽象未混合种群独立进化的情况下将祖先追溯到它们(Chakravarti 2009;Weiss 和 Long 2009),而且在用于研究犹太人血统时也存在问题,因为犹太人血统只能追溯到 3,000 年前(图 2 )。此外,无监督方法的结果会根据用于分析的特定种群和K的选择而有所不同,导致研究结果之间无法比较。混合是用一组代表遗传上截然不同的地区的七个人群的参考集来计算的:俾格米人(南非)、巴勒斯坦人(中东)、亚美尼亚人(高加索)、土耳其-伊朗人(近东)、法国巴斯克人(西欧)、楚瓦什人(东欧)和汉族人(东亚)(图 5)。祖先成分根据地理区域将所有人群分组,欧洲犹太人与高加索人群聚集在一起。正如所料,东欧和西欧血统在欧洲人群中表现出相反的梯度。近东-高加索血统在中欧(38%)和东欧(32%)犹太人中占主导地位,其次是西欧血统(30%)。在非高加索人群中,高加索血统在欧洲犹太人(26%)和塞浦路斯人(31%)中是最大的。这些人群在非中东人群中也表现出最大比例的中东血统。由于东欧人群中既没有高加索血统,也没有中东血统,我们的研究结果表明,东欧犹太人在抵达东欧之前就获得了这些血统。尽管莱茵兰假说认为犹太人在7世纪从巴勒斯坦迁徙到欧洲,从而解释了中东血统,但它无法解释庞大的高加索血统,因为高加索血统几乎是高加索人群特有的。
尽管东欧和中欧犹太人与高加索人群聚居(图5),但他们拥有很大一部分西欧和中东血统,而高加索人群中则没有这两种血统。根据可萨人假说,西欧血统是由希腊罗马犹太人传入可萨的,而中东血统则暗示了早期以色列原始犹太人和美索不达米亚犹太人的贡献(Polak 1951;Koestler 1976;Sand 2009)。中欧和东欧犹太人的主要区别在于他们的中东血统(分别为30%和25%)和东欧血统(分别为3%和12%),这可能是由于后期混合造成的。
德鲁兹人表现出大量的土耳其-伊朗血统(83%),这与他们的近东起源相符(补充图S4,在线补充材料)。德鲁兹人和塞浦路斯人在中东和西欧血统方面与欧洲犹太人相似,尽管他们在高加索血统的比例上差异很大。这些结果可以解释在排除高加索人群的研究中报告的欧洲犹太人、南欧人和德鲁兹人之间的遗传相似性( Price 等人 2008 年; Atzmon 等人 2010 年; Zoossmann-Diskin 2010 年)。总的来说,我们的结果将欧洲犹太人基因组描绘成近东-高加索、西欧、中东和东欧血统的镶嵌体,比例依次递减。
为了进一步了解造成欧洲犹太人和潜在人群之间遗传相似性的基因组区域细节,我们比较了他们之间由 IBD 共享的总基因组区域。如果欧洲犹太人起源于高加索人群,那么两者共享的 IBD 区域将比中东人群更长。IBD 分析呈现偏态双峰分布,体现出主要高加索血统和次要中东血统(图 6),与混合结果一致(图 5)。欧洲犹太人和高加索人群之间共享的总 IBD 区域(平均 9.5 cM)明显大于与巴勒斯坦人共享的区域(5.5 cM)(Kolmogorov-Smirnov 拟合优度检验,P < 0.001)。据我们所知,这是迄今为止报告的欧洲犹太人和非犹太人群之间最大的 IBD 区域。欧洲犹太人与其他人群之间 IBD 总数的减少,加上与高加索地区距离的增加,支持了可萨人假说。
接下来,我们估计了欧亚犹太社区的族内通婚水平,并将他们的遗传距离与非犹太邻居、高加索和中东人群进行了比较。我们的结果扩展了先前关于犹太人群族内通婚程度较高的报告(Behar 等人,2010 年),并将族内通婚的范围缩小到区域性犹太社区(表 1,左图)。犹太人与其自身社区成员的相似性显著高于与其他犹太群体的相似性(P < 0.01,引导t检验),保加利亚、土耳其和格鲁吉亚犹太人是个明显的例外。这些结果强调了欧亚大陆各地犹太社区之间,甚至社区内部的高度异质性,例如巴尔干和高加索犹太人的情况。
区域犹太社区与大陆犹太社区之间的遗传距离 (ASD)(左图)以及区域犹太社区与其非犹太邻近人群、高加索和中东人群之间的遗传距离 (ASD)(右图)
地区犹太社区 | 犹太人口 | 非犹太人口 | ||||||
---|---|---|---|---|---|---|---|---|
自己 | 欧洲的 | 亚洲 | 非洲 | 邻近人口 | 高加索 | 中东 | ||
东欧 | 0.2318 | 0.2328 | 0.2381 | 0.2446 | 匈牙利 | 0.2346 | 0.2340 | 0.2387 |
中欧 | 0.2312 | 0.2326 | 0.2378 | 0.2445 | 意大利人 | 0.2335 | 0.2338 | 0.2385 |
保加利亚语 | 0.2326 | 0.2331 | 0.2376 | 0.2439 | 罗马尼亚语 | 0.2347 | 0.2337 | 0.2380 |
土耳其 | 0.2336 | 0.2336 | 0.2376 | 0.2439 | 土耳其 | 0.2353 | 0.2337 | 0.2379 |
伊拉克 | 0.2303 | 0.2351 | 0.2375 | 0.2447 | 伊朗人 | 0.2363 | 0.2338 | 0.2381 |
格鲁吉亚 | 0.2304 | 0.2345 | 0.2372 | 0.2442 | 格鲁吉亚 | 0.2332 | 0.2332 | 0.2378 |
阿塞拜疆 | 0.2304 | 0.2365 | 0.2386 | 0.2465 | 列兹金人 | 0.2367 | 0.2352 | 0.2398 |
伊朗人 | 0.2310 | 0.2364 | 0.2391 | 0.2434 | 伊朗人 | 0.2414 | 0.2361 | 0.2383 |
注:带下划线的条目在每个面板中都明显较小。地理位置上最近的非犹太人口被视为邻近人群。最后两列中的距离是犹太社区与平均ASD最低的高加索(亚美尼亚人或格鲁吉亚人)或中东(巴勒斯坦人、贝都因人或约旦人)人群之间的距离。
与非犹太人群相比,所有犹太社区都与中东人群有显著 ( P < 0.01, bootstrap t检验 ) 距离,而除中欧犹太人外,与高加索人群的距离明显更近 (表 1 ,右图 )。Behar等人 (2010)报告了类似的结果,尽管他们将其斥为“我们计算中的固有偏差”。然而,我们没有发现此类偏差。中欧犹太人与南欧人群之间遗传距离较近可以归因于后期混合。该结果与我们之前支持可萨人假说的发现一致。由于所有犹太社区的唯一共同点是他们与中东人群的不同 (表 1,右图 ),因此,如果像通常的做法那样将不同的犹太社区分组而不校正他们的原籍国,则会增加他们的遗传异质性。
最后,我们对线粒体DNA和Y染色体进行了单亲分析,比较了欧洲犹太人与其他人群的单倍群频率。莱茵兰假说认为欧洲犹太人的父系和母系祖先均来自中东,而可萨假说则认为他们有高加索血统,同时还分别有来自拜占庭和哈里发国的南欧和近东移民的贡献。由于犹太教自公元3世纪才开始由母系遗传(Patai and Patai 1975),因此线粒体DNA预计会比Y染色体表现出更强的局部女性倾向的奠基者效应。欧洲犹太人与其他人群之间的单倍群相似性被绘制成以地理位置为背景的热图(图7)。所有研究人群之间的成对距离分别显示在补充图S6,在线补充材料。
我们的研究结果揭示了性别特异性过程,尽管常染色体数据并不明显,但与双亲分析中获得的结果类似。线粒体DNA和Y染色体分析均显示,欧洲犹太人与植根于高加索的高加索人群之间存在高度相似性(图7),这支持了可萨人假说。有趣的是,母系血统分析描绘了一个特定的高加索创始血统,其南欧血统较弱(图7 A),而父系血统则揭示了高加索-南欧双重起源(图7 B)。正如预期的那样,与父系血统相比,母系血统表现出更高的关联度尺度和更窄的分散性。
通过解剖单亲单倍群,我们可以更深入地探究欧洲犹太人的迁徙路线。由于结果没有具体说明南欧—高加索迁徙是古代还是近代,也没有表明迁徙的方向(从南欧到高加索还是相反),因此有四种可能的情况。其中,唯一有历史依据的情况是古代从南欧向可萨利亚的迁徙(6 至 13 世纪)和近代从高加索向中欧和南欧的迁徙(13 至 15 世纪)(Polak 1951;Patai 和 Patai 1975;Straten 2003;Brook 2006;Sand 2009)。从已缩小的可萨利亚向中欧和南欧的西迁将表现出从高加索向欧洲的母系和父系梯度。但并未观察到这种梯度。相比之下,由犹太化的希腊罗马男性主导的直接向可萨里亚的迁移与历史上的人口迁移相符,并可能造成了观察到的模式。此外,我们发现欧洲犹太人与里海以东、黑海以南(界定了可萨里亚的地理边界)的人群之间几乎没有基因相似性(表1和图1)。
讨论
东欧和中欧犹太人是当代犹太人中最大的群体,约占全球1300多万犹太人的90%。二战前,东欧犹太人占欧洲犹太人总数的90%以上。尽管欧洲犹太人的血统存在争议,但由于其推测的遗传史(Ostrer 2001),他们仍然是遗传学和医学研究中一个极具吸引力的群体。在医学研究中,校正人口结构和使用合适的对照至关重要,因此确定欧洲犹太人是否属于闪米特人、高加索人或其他血统至关重要。
尽管犹太教诞生于神学-历史神话的包围之中,但从约瑟夫斯·弗拉维乌斯(公元 1 世纪)到 19 世纪,并没有出现任何犹太史学著作 ( Sand2009 )。早期历史学家简单地将现代犹太人与古代犹太人联系起来 (图 2 ),以此弥合历史空白,这一范式后来融入医学科学,并具体化为一种叙事。许多人对这种叙事提出了质疑 ( Koestler1976 ; Straten2007 ),主要通过表明,如果没有犹太化的可萨人的重大贡献,单一的犹太血统无法解释 20 世纪初东欧犹太人的庞大人口,并表明这种说法与人类学、历史学和遗传学证据相冲突 ( Patai and Patai1975 ; Baron1993 ; Sand2009 )。
由于单亲和全基因组分析提供的答案并不明确(Levy-Coffman 2005;Atzmon 等人 2010;Behar 等人 2010),欧洲犹太人血统的问题主要在莱茵兰假说和可萨假说的支持者之间争论不休。尽管这两种理论都过分简化了复杂的历史过程,但它们因不同的预测和可检验的假设而具有吸引力。我们表明,这两个假设在基因上也是不同的,高加索人群中微量的闪米特血统无法解释欧洲犹太人和高加索人群之间的相似性。最近获得的高加索人群基因组数据使我们首次能够检验可萨假说,并促使我们将其与莱茵兰假说进行对比。为了评估这两个假设,我们对欧洲犹太人以及可萨人和犹太人群进行了一系列比较分析,每次都提出同一个问题:东欧和中欧犹太人在基因上是否更接近可萨人或犹太人群?根据莱茵兰假说,欧洲犹太人也预计会表现出较高的族内通婚现象,尤其是在他们的欧亚族群中,并且与邻近的非犹太人群相比,他们与中东人群的相似性更高;而可萨假说则预测了相反的情况。我们强调,这些假设并非排他性的,一些欧洲犹太人可能拥有其他血统。
我们的 PC、生物地理估计、混合、IBD、ASD 和单亲分析一致表明欧洲犹太人具有高加索血统。我们的初步分析揭示了欧洲犹太人和高加索人群的紧密遗传关系,并指出欧洲犹太人的生物地理起源于可萨利亚南部(图 3和4)。我们后来的分析产生了一个复杂的血统,其中近东-高加索血统略占主导地位,南欧和中东血统占很大比例,东欧血统贡献较小;后两者区分了中欧和东欧犹太人(图 4和5以及表 1)。虽然中东血统在 ASD 和单亲分析中逐渐消失,但南欧血统仍然存在,这可能证明其时期较晚(表 1和图 7)。
我们表明,可萨人假说对结果提供了全面的解释,包括已报道的南欧(Atzmon 等人,2010 年;Zoossmann-Diskin,2010 年)和中东血统(Nebel 等人,2000 年;Behar 等人,2010 年)。相比之下,莱茵兰假说无法解释欧洲犹太人中大量的高加索成分(这在非高加索人群中很少见)(图 5),也无法解释欧洲犹太人和高加索人群共享的大片 IBD 区域,从而证明他们共同且近期的起源。因此,我们的研究结果否定了莱茵兰假说,支持东欧犹太人起源于犹太-可萨人的论点。因此,我们可以得出结论,源自莱茵兰假说的将欧洲犹太人概念化为“群体孤立”是不正确的,并且很可能反映了比较分析中缺乏高加索非犹太群体的抽样偏差。
莱茵兰假说的主要难点在于,除了缺乏从巴勒斯坦到欧洲的多次移民浪潮的历史和人类学证据(Straten 2003;Sand 2009)之外,如何解释东欧犹太人口从五万( 15 世纪)大幅增长到八百万( 20 世纪)的现象。造成这一人口增长的年增长率估计为 1.7-2%,比工业革命前 15-17 世纪东欧非犹太人口的增长率高出一个数量级(Straten 2007)。这种增长不可能是自然人口扩张的产物,尤其是受到严格的经济限制、奴役、同化、黑死病和其他瘟疫、强迫和自愿皈依、迫害、绑架、强奸、流放、战争、屠杀和大屠杀等因素影响的人口增长(Koestler 1976;Straten 2003;Sand 2009)。因为这种非自然的增长率,持续了超过半个世纪,而且只影响到居住在东欧的犹太人,是难以置信的——人们用奇迹来解释它(Atzmon 等人,2010;Ostrer,2012)。不幸的是,这种神圣干预的解释带来了一个新的问题——它并非科学。莱茵兰假说根植于超自然推理,它是如何成为主流科学叙事的,这个问题在学者中一直存在争议(Sand,2009)。
对我们的发现最简洁的解释是,东欧犹太人拥有在高加索地区历经数个世纪形成的犹太-可萨人血统。早在公元前几个世纪后期,就有记录显示犹太人出现在高加索地区以及后来的可萨利亚,而后由于丝绸之路贸易的增长(图 1)、犹大的衰落(1 至 7 世纪)以及基督教和伊斯兰教的兴起(Polak 1951)而得到加强。在早期几个世纪,希腊-罗马和美索不达米亚的犹太人也普遍倾向于前往可萨利亚,而在可萨人皈依犹太教后,他们的迁徙更加频繁(Polak 1951;Brook 2006;Sand 2009)。由男性主导的从欧洲到可萨的东迁(图7)巩固了可萨基因库中奇异的南欧血统(图5),并增加了犹太-可萨人的遗传异质性。可萨人的宗教皈依影响了帝国的大多数公民和下属部落,并持续了接下来的400年(Polak 1951;Baron 1993),直到蒙古人入侵(Polak 1951;Dinur 1961;Brook 2006)。在帝国最终崩溃时(13世纪),许多犹太-可萨人逃往东欧,后来又迁移到中欧并与邻近人群融合。
历史和考古发现揭示了可萨人皈依后发生的人口事件。在犹太-可萨人存在的五百年间(公元740-1250年),他们派遣分支进入斯拉夫地区,例如罗马尼亚和匈牙利(Baron 1993),播下了一个庞大犹太社群的种子,该社群后来在可萨人流散中崛起。我们假设,犹太-可萨人在东欧的定居是通过一系列的建国事件实现的,人口通过连续的分裂从高加索地区扩展到东欧和中欧,而子代人口则随着社会政治条件的变化而扩展到新的领土(Gilbert 1993)。这些事件可能促成了可萨境外犹太社群的更高同质性(表1)。
帝国衰落后,犹太-可萨人难民前往新兴的波兰王国和其他东欧社区寻求庇护,他们在经济、金融和政治方面的专业知识在那里受到重视。在他们迁出之前,犹太-可萨人的人口估计为 50 万,与四个世纪后波兰立陶宛王国的犹太人数量相同(Polak 1951;Koestler 1976)。一些犹太-可萨人被留下,主要在克里米亚和高加索地区,他们在那里形成了一直延续到现代的犹太人聚居区。15 世纪,一个犹太王子王朝在热那亚共和国和后来的克里米亚鞑靼人的监护下统治着这里。可萨民族的另一个遗迹是东北高加索地区的“山地犹太人”(Koestler 1976)。
欧洲犹太人与居住在古代可萨利亚两端的亚美尼亚人、格鲁吉亚人、阿塞拜疆犹太人和德鲁兹人等人口有着惊人的接近性(图 3和补充图S2,补充数据和S5,补充材料在线),支持近东-高加索地区存在共同的血统。莱茵兰假说无法解释这些发现,而且由于这些人群在过去八个世纪中经历的不均衡的人口变化过程,这些发现令人震惊。欧洲犹太人和亚美尼亚人与格鲁吉亚人相比,观察到的遗传相似性略高(图4和补充图S5–6,(见补充材料在线和表1)尤其令人困惑,因为亚美尼亚人和格鲁吉亚人是非常相似的群体,他们有着相似的遗传背景( Schonberg等人,2011)和悠久的文化联系史( Payaslian,2007)。我们推测,亚美尼亚人身上存在少量的中东血统,而格鲁吉亚人则没有,这可能是亚美尼亚人和欧洲犹太人之间遗传高度相似的原因(补充图S6,补充材料在线)。由于可萨人阻挡了阿拉伯人进入高加索的通道,我们怀疑这个血统是由很早就到达亚美尼亚的犹太人引入的,并被吸收到当地人群中,而到达格鲁吉亚的犹太人则避免了被同化( Shapira 2007)。这里和文献中报道的欧洲犹太人和德鲁兹人的亲缘关系( Behar et al. 2010)可以用德鲁兹土耳其-南高加索的起源来解释。在十字军东征期间,德鲁兹人移居到叙利亚、黎巴嫩,并最终在 11 世纪到 13 世纪移居到巴勒斯坦,当时巴勒斯坦的犹太人口处于最低水平。因此,欧洲犹太人和德鲁兹人在基因上的相似性支持了可萨人假说,不应将其与闪米特起源混淆,闪米特起源很容易与非闪米特起源区分开来(图 5)。我们强调,只有针对中东本土群体才能检验欧洲犹太人的中东血统。总体而言,欧洲犹太人与高加索人群之间的相似性凸显了欧亚犹太人与非犹太高加索人群之间存在的基因连续性。
这种遗传连续性并不令人惊讶。高加索基因库由于旧石器时代晚期(或新石器时代)的迁徙而从近东基因库中增殖而来,并受到显著遗传漂变的影响,这是由于极端山区景观的相对隔离(Balanovsky 等人,2011 年;Pagani 等人,2011 年)。因此,预计高加索人群在遗传上与南欧和中东人群不同(图 5),但与土耳其人、伊朗人和德鲁兹人等近东人群具有一定的遗传相似性。在我们所有的分析中,中东样本聚集在一起或沿地理梯度表现出高度相似性(图 3),一方面与阿拉伯半岛阿拉伯样本有区别,另一方面与近东-高加索样本有区别。
我们的研究试图揭示被遗忘的可萨人,并阐明其历史上一些最引人入胜的问题。尽管可萨人皈依犹太教的事实毋庸置疑,但这一新宗教的传播范围和根基仍存在疑问。尽管欧洲犹太人的样本量有限,但他们代表了主要犹太居住国(例如波兰和德国)的成员,并且表现出非常相似的趋势。我们的研究结果支持从中南欧和美索不达米亚到可萨的大规模迁徙,这重塑了可萨人以及中高加索和上高加索地区其他高加索人群的基因结构。我们的研究结果还支持大规模皈依犹太教后,新移民与犹太-可萨人融合的观点。另一个耐人寻味的问题涉及可萨人的起源,据推测可萨人是突厥人、鞑靼人还是蒙古人(Brook,2006)。正如根据其共同起源所预期的那样,高加索人群与具有温和东亚血统的伊朗人和土耳其人表现出高度的遗传相似性(图 5和补充图S6,补充材料在线)。然而,我们发现,与高加索和东欧的贡献相比,父系突厥的贡献较弱(图7)。因此,我们的研究结果支持将突厥人认定为可萨人的祖先,但不一定是主要祖先。考虑到他们的地理位置,可萨人的基因库很可能也受到了我们数据集中未包含的东欧人群的影响。
我们的研究结果与来自广泛领域的证据相吻合。语言学发现表明,东欧犹太人是少数以色列-巴勒斯坦犹太移民的后裔,他们与来自高加索、巴尔干和日耳曼-索布地区的大量皈依犹太教的异质人群通婚(Wexler 1993)。意第绪语是中东欧犹太人的语言,最初是一种斯拉夫语,早期被词化为高地德语(Wexler 1993)。我们的研究结果也与考古学、历史学、语言学和人类学研究结果相一致(Polak 1951;Patai 和 Patai 1975;Wexler 1993;Brook 2006;Kopelman 等人 2009;Sand 2009),并且调和了在单亲和双亲基因组数据中观察到的相互矛盾的遗传学发现。最新的全基因组研究(Atzmon 等人,2010 年;Behar 等人,2010 年)认为欧洲犹太人起源于中东,这一结论并不完整,因为这两项研究都没有像本文一样对可萨人假说进行检验。最后,我们的研究结果证实了口述叙事以及描述可萨人皈依犹太教的犹太经典文献(例如,亚伯拉罕·本·达乌德(Abraham ben Daud)的《卡巴拉之书》(Sefer ha-Kabbalah)[公元 1161 年],以及拉比耶胡达·哈勒维(Jehudah Halevi)的《可萨人》(The Khazars)[公元 1140 年])(Polak,1951 年;Koestler,1976 年)。
尽管对高加索和近东人群的医学研究不如对欧洲犹太人那样深入,但欧洲犹太人身上发现的许多疾病也存在于他们的祖先群体中,包括高加索(如囊性纤维化和 α-地中海贫血)、近东(如 XI 因子缺乏症,II 型)和南欧(如非综合征性隐性耳聋)(Ostrer 2001),证明了他们复杂的多起源性。
因为我们的研究是首次直接对比莱茵兰假说和可萨假说,所以在解释某些结果时需要谨慎,因为样本量较小并且缺乏替代人群。为了检验可萨假说,我们使用了一个粗略的可萨人种结构模型。我们的混合分析表明,高加索基因库中的某些祖先元素可能是可萨人独有的。因此,使用少量当代高加索人群作为替代人群可能只能捕捉到可萨人基因谱的某些色调。需要进一步研究来检验犹太-可萨人人口结构对犹太人出现在欧洲的贡献程度(Polak 1951;Dinur 1961;Koestler 1976;Baron 1993;Brook 2006)。这些研究可能会产生比此处测试的更复杂的人口模型,并阐明高加索人群的复杂人口结构。无论这些限制如何,我们的结果在不同类型的分析中都是稳健的,我们希望它们能够为遗传学、疾病、医学和人类学研究提供新的视角。
结论
我们比较了两种欧洲犹太人血统的遗传模型,一种描述了可萨人-欧洲-中东混合血统,另一种描述了单一中东血统。我们以当代人群作为古代可萨人和犹大人的替代,并通过一系列全面的遗传分析比较了他们与欧洲犹太人的亲缘关系。我们的研究结果支持可萨人假说,该假说描述了一个庞大的近东-高加索血统,以及南欧、中东和东欧血统,这与最近的研究以及口头和书面传统相一致。我们得出结论,欧洲犹太人的基因组是古代人群的混合体,包括犹太化的可萨人、希腊罗马犹太人、美索不达米亚犹太人和犹大人,他们的人口结构形成于高加索地区和伏尔加河沿岸,其根源延伸至迦南和约旦河沿岸。
致谢
作者感谢Brian和Sharon Browning对IBD分析的帮助,以及他的同事们提出的宝贵意见。作者也感谢两位匿名审稿人提出的建设性意见和建议。
参考文献
作者注释
副主编: Dan Graur