平凸杂谈

才高五斗不觉耻,水灌一坛只作痴。凸情不枉君付意,子志难琢我化石。
个人资料
贾平凸 (热门博主)
  • 博客访问:
正文

Cross Admission,大学录取的哥德巴赫猜想

(2022-02-22 12:18:55) 下一个

满贯、大满贯和超级大满贯

在美本申请上,一直有一个神秘兮兮的问题,即cross-admission。每年有多少拿到多藤、加上斯坦福、甚至加上麻理工的满贯、大满贯的得主呢?这问题可以猜,却没法回答。

一个人能拿到所有哈、耶、普的Offer,叫做满贯。如果是哈、耶、普,外加斯坦福,叫大满贯。如果是哈、耶、普、斯,再加上麻理工,就叫超级大满贯。2015年以后,越来越多的拿下多藤的近满贯、满贯的申请人把自己的经历放到YouTube分享。而且每年藤校放榜日后,也总那么有一篇满贯文书火爆网络。

有人 Po,有人火,热闹归热闹。但那个问题,还是没人回答得了。谁也不知道每年能有多少(1)超级大满贯、(2)大满贯、和(3)满贯得主。那就更别提下面这一连串更专业点的问题了

4)每年,有多少哈-耶双连得主?

5)那,哈-普双连得主呢?

6)那,哈-斯双连得主呢?

7)那,哈-麻双连得主呢?

8)那,耶-普双连得主呢?

9)那,耶-斯双连得主呢?

10)那,耶-麻双连得主呢?

11)那,普-斯双连得主呢?

12)那,普-麻双连得主呢?

13)那,斯-麻双连得主呢?

如果双黄问题不够刺激,我们再把专业度提高一层:

14)哈-耶-斯三连得主呢?

15)哈-耶-麻三连得主呢?

16)哈-普-斯三连得主呢?

17)哈-普-麻三连得主呢?

18)哈-斯-麻三连得主呢?

19)耶-普-斯三连得主呢?

20)耶-普-麻三连得主呢?

21)耶-斯-麻三连得主呢?

22)普-斯-麻三连得主呢?

而且,这问题还没完呢,再加上下面这四个:

23)哈-耶-普-麻四方连呢?

24)哈-耶-斯-麻四方连呢?

25)哈-普-斯-麻四方连呢?

26)普-斯-耶-麻四方连呢?

解开这一连串的问题,就能解开T5招生的一个秘密。这个秘密,T5们不说,人们都只能当Gossip一样瞎猜瞎传。这样的话,哈斯普耶麻就可以一边任由各种录取奇迹骗取你的感情,另一边拿连年惨跌的录取率来霸占你的劳动。

从 Frosh Survey 说起

录取数据这个秘密,是T5的底裤。他们会习惯性地捂着它,除了每年露个录取率来营造一下市场气氛。底裤捂得最严的,是哈、斯、麻。他们仨在T5各据市场细分的一极,所以对赖在其他T5的竞争最不敏感。但耶、普两家就稍有不同,他们各自的细分价值稍显模糊,再面临着哈斯麻的竞争压力,难免要更不淡定一些。所以会再多露一些底出来,从而勾引市场的兴趣。

这其中,有一份普林斯顿的Frosh Survey。Frosh是大学一年级新生,跟Freshman同义。每个学校都会有这种Survey,但只有普林会在Survey里公布Cross Admission的统计数据。其他学校的Frosh对于Cross Admission问题,要么是有数据但不公布,要么就是干脆没数据。

 

frosh 1.PNG

斯坦福的Survey也应该有Cross Admission数据,但是从不公布。可是有一次,仅有一次,不知道是哪个校办的秘书手潮,还是网管忘了加墙,让Stanford Faculty Senate Minutes的记录漏出网上,被人把数据记下来了。这是一个亚裔Lawrence Chiou,他是Harvard'14,Stanford PhD'18,他现在斯坦福做Data Scientist。让我们一起感谢Lawrence  Chiou。

frosh 4.PNG

 

从这些数据,我做了一个基础数据表格。这篇的聚焦在T5,所以其他藤校的数据先暂时忽略,以后有时间再跟大家做更深入的推演。 从这个表格里的基础数据出发,我们就可以相当准确地计算出以上所有问题的答案,即各种哈耶普斯麻组合下的Cross Admission的人数。

 

basic cross.png

从多藤到超级大满贯的数据合成

关于这个数据计算的详细过程,我就不啰嗦太多了。我只简单说一下合成其他空白数据的原则。首要原则就是对称原则,即以对角线为对称轴的两个格子的数据,反映着同一对学校之间的交叉offer人数,这样的人数(注意不是录取概率)应该相等。次要原则是等比例原则,即构成矩形的四个小格的数据应该横竖两个方向都成比例。我们通过这两个原则,就可以合成出其他所有空白格的数据。这就是双录取的全部概率分布情况。

basic cross 1.png

根据以上的数字,再加上各校年均招生的人数,我们就可以算出各种搭配下的双录取人数,这就是下面的双连表。所有的双连录取数字就此得解。请注意,双连总人数2175,少于所有双连数字相加的结果2537。为什么呢?请读者自己思考。要是想不明白的话,Top 20就不要申请了。但是哈佛和耶鲁还是可以申的,因为他们都不会要求你达到嫩么的quant。

dual #.png

人数不少哇!看见这个的人会首先感叹一下。我们来仔细分析一下。重合数字最高的是耶鲁-普林的427,这说明两校之间再招生价值的重合度最高,因为校际价值越重合,就会共同向越多的申请者发出offer。这并不在于他们官宣的价值,而在于他们看到同样价值的申请者的真实反应(即发offer的概率)。其次普林-斯坦福之间、哈佛-斯坦佛的重合度也都很高。这就间接的证明了一点,斯坦福实际上在与东部院校全线展开竞争的。

更有意思的是,哈耶普斯四校与麻理工之间的重合度都很低。这说明麻理和大家的重合度都低得很,最低的是再哈-麻这两所同城之间,每年的共同offer人数只有50这个量级。只有各自招生规模的2-3%而已。与麻理工重合度最高的,反而是远在西岸的斯坦福,这符合我们的常识经验。

下面我们来解决三连的人数问题。根据双连概率表,再加上条件概率的计算公式,就可以很方便计算出三联数字。比如我们已经知道哈佛录取人里有耶鲁录取的概率,也知道耶鲁里有普林的概率,两者相乘,就得到了哈-耶-普三联的概率。如此,算出的三联表格如下。我只填了对角线以下的表格。对角线以上的表格,可以参考对称原则来计算。

trio.png

用三连概率表格,我们同样可以计算出何种搭配下的三连录取的人数:

trio #.png

三连的人数就变少得可怜了,362人,只有二连总数的15%(六分之一)。以哈-普-斯三连的人数最多(76),比藤校满贯的哈-耶-普都更多出十几个人来。这么看来,人们习惯只把哈耶普而不是哈普斯叫做满贯,还是有道理的。哈-耶-斯、普-耶-斯的三连人数都差不多,在60人以上。有麻理工的三连里,普-斯-麻的人数最多。同时具有哈-麻的三连都少得可怜。从前面的哈麻双连就知道,沾上哈气儿的人,基本上就很难再混进麻团儿里了。但无论如何,这些能在哈耶普斯四校之间拿下任意三个的,都是绝对顶尖的学生了。

还有更顶尖的四方连。我就不罗嗦算法了,直接上四连的概率表格和人数。能拿到T5中四连录取的总人数在20人的数量级。我个人认为这个数字算的有点偏低,但数量级基本上靠谱,再多也不会超过50人。除了大满贯哈-耶-普-斯之外,其他任何的四方连(即带上麻理工的四连)就少得可以当没有了。麻是最难进的(不是只看录取率数字那么简单),敢申的人就少的很,即使你是有哈耶普斯里三连实力的人。

quadro.png

quadro #.png

最后,超级大满贯,HYPSM五张通知书集齐的人,我算出来的结果是零。也许有,但这人数非常稀少了。我上次见还是2017年,我记得北达科塔州的一个白人小伙。极少数了,除了让我们感叹一下,其实他对我们的申请没什么借鉴价值。被一群价值观完全不同的学校都录取,这个纯属运气。

这些,对申请有什么用?

满屏的Gossip说完,哈喇子流了一地。这有什么用呢?有用的话在下面!

对于大多数T5申请人来说,都是有实力、但没信心的人。要申请都是碰运气,不申呢又白不申吧。所以你要是能拿到offer,也就是撞上一家的运气而已。T5总共发出9700张左右的offer,给到7300人手中。这其中拿到仅仅一张offer的人,一共有5350人。看上去很多是吧,但其实里面有3870张是早申拿下的,而且这些人里面的70%有Legacy的。剩下的1480张single offer,会在19万份Regular中找到主人,相当于0.7%的录取概率。这跟媒体报道的3-5%RD概率之间相差甚远。

singles.png

各家的情况如何呢?先说哈佛吧。他每年给出约1900张offer,其中1192张是给到了只拿到哈佛的人的手里了。这些哈佛single offer的学生,有858人其实在早申中拿到的,80%以上的人有Legacy,没有legacy的早申offer也就不到200个人而已。对比早申数1万多人数,如果你没有Legacy,那么你的早申录取率其实只有2%,根本不是宣传的7%(2020年早录)更不会是13%(2019年早录)那么高。在Regular阶段去申的话,没有Legacy的录取率其实都不到0.6%。

耶鲁和斯坦福的录取率和哈佛类似,而且非Legacy录取率更低。最惨的其实在普林。没有Legacy的人在Regular阶段去申普林其实就跟心理安慰差不多,他给你的single offer本来就很少。这基本上可以看出来,普林是一个招生价值观相对更传统和封闭的学校。他在识别申请者的时候,更多的会关注到传统的精英价值观上去。当你仿着对哈佛斯坦佛的那一套,把自己做成进步主义的profile给普林的时候,你可能已经走在了一条自裁的路上。

读了这满篇的数字分析,请大家不要把上面的数字绝对化。这些事合理计算的结果,可以作为很好的定性参考。我想读到这里的同学,会自然地想到各校招生价值观的差异化问题。关于这个问题,我们过去在美本文书讲座和讲座之后的文稿里详细阐述过。你可以去翻我的博客。

[ 打印 ]
阅读 ()评论 (3)
评论
米汤 回复 悄悄话 分析基于Princeton n=207 survey样本,当年common data 上面1154 入学生,这个如何解读是一个问题
贾平凸 回复 悄悄话 回复 '十月猴妈' 的评论 :

中一个都是麻烦
十月猴妈 回复 悄悄话 高!可以发表的论文。经常看一些竞赛的camper上MIT, 心想那么优秀的娃怎么都往一个地方扎?数据说明了一切。看来T5中了一个欢天喜地,中了两个犹犹豫豫,中了三个以上岂不是自寻烦恼 :P.
登录后才可评论.