鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
嗑盐的你,用过Sci-hub吗?
作为一个能免费看论文的学术搜索引擎,Sci-hub是科研人员的秘宝,同时,却也是学术出版商眼中的大毒瘤。
现在,有人站出来,用统计数据为Sci-hub正名:
能通过Sci-hub下载的文章的被引次数,是Sci-hub上下不到的文章的1.72倍。
也就是说,Sci-hub的下载量,已经成为论文影响力的重要指标。
![](https://imagepphcloud.thepaper.cn/pph/image/75/499/565.jpg)
我总要先能看文章,然后才能引用啊。
![](https://imagepphcloud.thepaper.cn/pph/image/75/499/567.jpg)
这项针对Sci-hub影响力的研究,被研究人员们公开放在了arXiv上。
研究人员认为,Sci-hub作为一个闻名全球的项目,对于学术体系中的所有人都影响深远。
因为它能绕过大多数学术出版商的付费墙,实际上增强了论文的潜在影响力。
他们希望通过数据证明,Sci-hub的下载量与论文未来的引用量是正相关的。
![](https://imagepphcloud.thepaper.cn/pph/image/75/499/568.jpg)
研究人员为此准备了两个数据集,其中包含Nature、Science在内的12种顶级期刊上发表的文章信息,横跨神经科学、经济学等多个领域。
第一个数据集包含2015年9月至2016年2月这段时间内,能从Sci-hub上下载到的所有文章。
第二个数据集则来自传统的Scopus数据库,包含同一时段内,在选定期刊上发表的所有文章。
并且,通过跟第一个数据集的对照,研究人员筛掉了其中能在Sci-hub上下载的文章,使其仅包括无法通过Sci-hub免费获取的论文。
对于每一篇论文,研究人员都统计了其中图表的数量。另外,还统计了每篇论文第一作者和通讯作者的H-index、每本期刊的影响因子,以及每个作者所属国家的研究资源等数据。
![](https://imagepphcloud.thepaper.cn/pph/image/75/499/569.jpg)
根据引文统计分布,文章引用次数超过2000次的论文被视作离群值。
研究人员通过最小二乘法、离群值影响、带有工具变量的稳健回归、异方差校正等等一系列广义加成模型来评估关系的敏感性。
在控制了所有的偏差来源之后,结果显示,能从Sci-hub下载的论文的被引次数,是不能从Sci-hub下载的论文的1.72倍(p