牧爷_文学城博客

All models are wrong; some useful.

“平等性”博友搬出George Box来自救，要我看，您就是搬出Albert Einstein也没辙。

Ronald Fisher在他的获奖感言里说，你们都误会我了，我是科学家，你们给我一个最佳统计学家的奖，是羞辱我呢，还是羞辱我？

虽然我对《正常，还是不正常》一文的结论深信不疑，但这篇文章的论证方法并不科学，其中的道理，是不需要学习任何正规的概率论或统计学就可以明了的。你在沙滩上随手抓一把沙子，没有抓到臭虫，就断言沙滩里没有臭虫，这种当今写SCI的做法，岂能当真？

因为文城第一名的争议，我对文学城小编的眼力见早就彻底失望，不作任何指望了。但我对号称海外简中第一文学之城，博友中诸多号称教授、博导者的科学鉴赏力也非常失望。这从我前一篇文章《如何估计BJG博文的真正流量》不及一千的点击量，就可以看出。

科学研究方法大体上分为两类，一类是机理分析，一类是经验模型。前者强调演绎推理，后者着重归纳逻辑。前者发端于欧几里德几何，后者登峰于贝叶斯理论。前者主要应用于科学发现，管理决策却主要依赖于后者。当然，这并不意味着两类方法只能二者取其一，实际上，现代科学研究常常是二者融合，从经验中找到蛛丝马迹，形成假设，通过逻辑推理，建立观察量，用以检验假设。这就是Fisher坚持认为自己是科学家而不是统计学家的原因。

《估计》文是建立在严格的科学方法基础上的。文章的零假设（Null Hypothesis，NH）是：BJG文章不存在虚假点击。

推理：在NH成立的前提下，BJG的文章点击量分布（distribution），应该与广大博友的文章点击量分布相当。在一般话题上处于某个水平，在争议话题时，点击量会自然上升。

观察量：BJG的文章点击量分布，以及其他诸博友的文章点击量分布。

结果与讨论：纵观BJG所有显现文章，其篇点击量分布正好与广大博友的文章点击量分布反相，即在一般话题上点击量处于高位（上万），而在争议话题上文章点击量处于低位（少一个数量级）。而广大博友的文章点击量分布通常在一般话题上点击量处于低位（十、百、近千），而在争议话题上文章点击可见明显增长（大几千）。这种反相模式，目前只有一种理论可以解释，那就是：BJG的一般话题文章都是带有任务的，写完了，就要用点击量交差。而BJG的争议话题是在任务之外的文章，无法将之注册到机器点击的范围之内，因而此类文章的点击，“泯然众人矣”。对带任务感兴趣的读者，请参考《再说一点大外宣的事情》第三段。

这种分析方法的优点在于，一方面考虑了BJG的全体文章样本，而另一方面对于广大博友文章的点击量分布，作者采用了多年来累积的经验，伴之以贝叶斯更新，结果极其robust. 这个方法采用了统计力学的各态历经（ergodicity）概念，特色在“纵观”二字，因之避免了传统抽样方法以偏概全的缺陷。

结论：NH不成立，p = 0.

Disclaimer: 此文的主要目的是解释一种现象，而并不是针对BJG个人（如果是一个人的话。重音在“一个”，不在“人”）。此文未接受任何形式的资助。

致谢：感谢夫人方便面晚餐侍候。

建议平等性教授将此文推荐到Science发表，并授予Ig Nobel prize。一笑。

---------

PS: 红色字体为修改稿，请“数字旋律”博友斧正！

Article history:

2023-09-26: submission

2023-09-27: revision


	从文城第一名聊聊研究方法
	文章来源: 牧爷于 2023-09-26 17:08:21