思芦随笔

人只不过是一根芦苇,是自然界最脆弱的东西;但他能够思想。
个人资料
思芦 (热门博主)
  • 博客访问:
正文

中国水军大量涌入文学城?

(2019-05-24 20:33:15) 下一个

Alexa.com是一个权威的web 流量的监测和分析网站。这个网站由Amazon操作。它对世界上大部分网站按访问量进行排名。在这个网站上输入一个网址,就会得到该网站90天的流量和排名变化。还可以看到访问者来自于哪些国家。

好奇文学城的排名,我输入了wenxuecity.com,结果让我大吃一惊。文学城的访问量的前三名分别来自中国大陆(36%),美国(34.4%),加拿大(9.3%)。文学城网站在北美,大部分访问者应该是local的。而且文学城在中国是被防火墙封锁的,不翻墙是上不去的。来自中国大陆的访问者竟然高于美国和加拿大。怀疑结果的准确性,我又对比了google.com (全球排名第1),youtube.com (全球排名第2)和facebook.com(全球排名第3),以及中国排名第一,世界排名第4的百度。结果如下:

网站

1

2

3

Google.com

美国(20.9%)

印度( 9.1%)

日本(5.2%)

Youtube.com

美国(15.3%)

印度(8.3%)

日本(4.8%)

Facebook.com

美国(25.6%)

英国(4.3%)

日本(4.3%)

Baidu.com

中国大陆(94.7)

日本(1.7%)

美国(1%)

Wenxuecity.com

中国大陆(36%)

美国(34.4%)

加拿大(9.3%)

除了文学城,其他网站访问分布是按照地域分布的。说明Alexa的统计方法是准确的。谷歌、油管和脸书也都是被防火墙封锁的,显然来自大陆的流量明显减少(google.com来自大陆的访问量占3.3%,youtube.com 来自大陆的访问量占3.7%)。

如果来自于大陆的文学城的访问者是翻墙的,这个翻墙量有点儿大。而且翻墙是通过VPN,IP包头已经转换到境外网址了,根据IP地址的统计应该是看不到的。就算Alexa的统计包括了翻墙的流量,这个流量也远远大于同样需要翻墙的谷歌、油管和脸书。

另外,由于中国和美国存在日夜颠倒的时差,如果主要的流量来源于大陆,文学城的峰值访问流量应该是在夜间,但实际上是相反。除非这些大陆访问客都在夜间值班。

难道是大陆的水军来了?怪不得这儿的小粉红有点儿多。

后续Followup:

得到文学城论坛管理的答复:http://bbs.wenxuecity.com/mychina/995405.html

“Alexa不准确! 我们技术部有自己的tracking数据,同时也安装了google analytics,对比起来alexa的数据是天方夜谭,另外我们也问过广告部同事,他们回复的是因为Alexa分析自身的缺陷,业界早就不用alexa看了。”建议用SimilarWeb.com “虽然免费公开的部分数据没有那么全面,但是要看读者分布比例是足够了。跟我们用Google Analytics得到的数据相近 ,来自中国的流量肯定是有的,但绝对不是最大一部分流量。”

similarweb的结果是美国占60.8,加拿大占18.5%而中国占9.26%。

争论的重点是一,Alexa是否权威,为业界采用。二,Alexa的用户分布统计是否准确。

用Website Rank Analysis在Google搜索,最先给出的仍是alexa。similarweb要在第2页才能看到,显然Google 认为Alexa更权威。大多数用户会使用google的link。 以下来自维基对Alexa的评价。

“Alexa每天在网上搜集超过1,000GB的信息,然后进行集成发布,当前其搜集的URL数量已经超过了Google。Alexa网站排名的计算是以网站的每天平均使用人数、人均访问页面数(与人数和人均页数之乘积成正比)、与其他网站的链接或曝光数、网民所留言讨论的消息篇数等信息为基础,并以比重不明的加权平均数来排名。而正式名次是基于最近三个月之内数据的平均值。除全世界网站排名之外,Alexa网站亦提供各种语言、地区、主题的分类排名。

Alexa网站排名主要根据Internet Explorer、Firefox和Google Chrome提供的流量数据来排名,因此,使用它的人数是否能代表一般网络用户具有争议。此外,排名是根据最近三个月数据的总和来排行,因此要等很久才会有显著的变化。Alexa也承认排名中几项不准确信息的可能性,包括使用量较小的网站很难准确估量,主要被非IE用户使用的网站,以及某些同域的二级域名网站等。但由于Alexa的取样数量相当大,且参考依据为现今网络世界的主流浏览器,因此一般仍被最广泛用于评估网站的受欢迎度。”

2009年3月31日,Alexa重新设计了其网站,并提供了新的网络流量指针,目的是为了与其他网络分析网站竞争,如Quantcast和Compete.com。

综上所述:Alexa还仍然是一个被公认的网站排名的权威机构。其准确性存在着争议。主要集中在排名的准确性和及时性。Alexa也在改进其方法。但是对用户的地域分布的准确性还没看见到有质疑。

那么为什么Alexa和Similarweb在访问者的地域分布上分歧比较大呢。这主要是由于中国的防火墙。一般中国用户访问文学城必须翻墙使用VPN。Similarweb可能根据IP地址来定位访问者的国家。但是由于VPN代理服务器对IP包重新封装,在网站上看到的翻墙访问者的IP地址都在中国境外,所以Similarweb的中国数据只统计了那些不翻墙的走后门通道的访问者。根据https://stackoverflow.com/questions/6937372/how-alexa-can-find-out-my-country-if-im-using-proxy和维基的描述,ALexa不是根据IP地址来确定访问者的国家,而是通过用户的工具栏或其他客户端插件收集大量数据。包括用户的真正IP地址和其他归属信息。当一个用户click文学城的网页时,一些插件或者 Cookies(JavaScript代码)将会随着网页被下载到客户端。将从工具栏和其他客户端插件收集到的用户行为发送到Alexa统计网站。所以Alexa的统计更接近真实,比单纯看IP地址更准确。因为Alexa的数据包括了翻墙者和不需翻墙的用户(你知道他们是谁)的总和。那么Similarweb的中国分布数据就是那些来自中国的直接用户。为了验证这个推断,又分别查看了用Alexa和Similarweb对aa.com和oracle.com的统计。因为这两个网站不用翻墙,Alexa和Similarweb的结果相当一致。说明以上推断是正确的。

于是我们可推出有27%的翻墙的间接用户和9.26%的直接用户。这些直接用户包括水军和一小部分国外手机用户。低于9.26%的水军可能是更准确的猜测,也代表了这里的真实感受。毕竟36%的水军太庞大了,难以想象,也没必要。由于这个占比是时间占比而且水军都是在持续工作,而不是间断性的娱乐型,水军的实际人数应该低于9.26%。

[ 打印 ]
阅读 ()评论 (9)
评论
思芦 回复 悄悄话 回复 'joan2006us' 的评论 : 更准确的分析见已更新的博客,后续和followup。CND的48%的中国用户占比包括翻墙用户。水军人数应该低于15%(from similarweb),比较符合真实感受。推导理由见更新博客。
发现其中的事实 回复 悄悄话 回复 'joan2006us' 的评论 :
从中土费尽心机上到被长城封锁的文学城,到底是“自发爱国” 还是“反美是工作”, 你心里有数, 呵呵
joan2006us 回复 悄悄话 回复 '发现其中的事实' 的评论 :
你的意思是华夏文摘,有组织的反共。文学城自发的爱国。
光盐行者 回复 悄悄话 有些博文,一看就是五毛写的。看的人还挺多。不是自己点的就是其他五毛点的。我上过一次当后就再也不看了。
发现其中的事实 回复 悄悄话 回复 'joan2006us' 的评论 :
你举的例子不恰当。CND给大量的注册读者常年发送给收件者,让他们点击。文学城的来访者都是自己log in
joan2006us 回复 悄悄话 Checked cnd.org, it has 48% from China,26% from US, 10% from japon, and it's full of anti China articles, what does it mean?
wudaniang 回复 悄悄话 很明显的!不要理那些人!
思芦 回复 悄悄话 回复 'Fanreninus' 的评论 : 没有人有答案,这个问题还是合理的。IP地址是动态资源,可以反复使用的。何况还可以用NAT.
Fanreninus 回复 悄悄话 似曾相识;看看这篇博文。
http://blog.wenxuecity.com/myblog/4567/201905/16961.html
登录后才可评论.