以往研究证明论文在社交媒体中的热议与被引次数相关性很低。例如Nature的这篇报道“Twitterbuzz about papers does not mean citations later”在标题中就直截了当地说论文的社交媒体热议并不意味着将来的引用。但是我们通过对PLOS论文的实证研究发现,论文在社交媒体中的传播会引发更多的论文下载,而下载与引用是高相关的。因此,论文的网络传播可以提高论文的被引次数。
长久以来,被引次数被人们广泛接受为科学文献影响力的权威测度指标。近年来,科学计量学研究者提出,除了被引次数之外,论文的影响力还可以通过一些补充性计量指标进行量化测度,例如论文的下载次数、Mendeley读者数,以及Altmetric(补充性计量指标)综合得分。以往有许多关于论文的被引次数与其他指标的相关性分析,论文下载次数与被引次数之间的高度相关性得到了证实,但是研究者们也发现altmetrics指标与被引次数之间的相关性非常之低。通常,学术出版商会给读者提供两种阅读论文的方式,即html网页浏览和pdf浏览。我们的问题是,不同的文章浏览方式会对论文的被引次数产生相同的影响吗?进一步,对不同的文章浏览方式进行区分,是否可以给论文的影响力测度提供更合理的解释?虽然alemtrics与被引次数的相关性非常低,但是altmetrics与其他计量指标,例如论文的下载次数,有什么样的关系呢?
被引次数与下载次数的强相关性 VS 被引次数与altmetric的弱相关性
我们选取了PLOS发表的6万4千多篇研究性论文,对每篇论文的不同计量指标之间的关系进行分析,结果如表1所示。我们对每年的论文分别计算被引次数与其他指标的相关系数,发现被引次数与pdf下载次数的相关性最高(0.52-0.77),html网页浏览与被引次数的相关系数在0.44到0.68之间。与论文的html网页浏览相比,pdf下载更容易导致论文被引用。被引次数与altmetric得分之间的相关性非常弱,低于0.25。
为了更好地展示结果,我们使用了色阶(color scales)和迷你柱形图(column sparklines)来展示相关系数大小分布的情况。红色单元格代表高值,绿色单元格代表低值。在最右列中,最高值用红色突出显示。
表1 论文被引次数与其他计量指标的相关系数
注:所有的相关系数在0.01显著性水平下显著。
Altmetric与下载次数之间的较强相关性
如前所示,不同的文章浏览方式确实会对被引次数产生不同的影响。但是,Altmetric得分与被引次数之间的弱相关性是否意味着altmerics对被引次数没有任何影响呢?
在此,我们又分别计算了论文的Altmetric得分与其他指标的相关性。我们发现,Altmetric得分与html网页浏览次数的相关性最高(0.35-0.40),如表2所示。
表2 Altmetric得分与其他计量指标的相关系数
注:所有的相关系数在0.01显著性水平下显著。
探究不同计量指标之间的关系
我们提出了一个概念模式来阐释社交媒体讨论、论文下载与引用之间的关系,如图1所示。社交媒体讨论与学术引用分别位于关系链条的两端。对于研究者来说,是不可能引用一篇没有阅读过的论文的。所以在图1中,最左端的社交媒体讨论与最右端的引用之间没有连线关系。相反,上表2中Altmetric得分与论文的html网页浏览之间的较强相关性意味着,社交媒体的讨论会将一部分网络浏览带给网页浏览,进一步,部分文章的浏览会导致论文引用的发生。此外,部分读者在网页浏览之后,还会下载论文的pdf,从pdf下载到引用之间也有一条连线。
在图1中,不同的影响路径用不同颜色表示。橙色箭头表示从社交媒体讨论所引发的作用路径。紫色箭头表示直接从网页浏览引发的路径。相同颜色箭头大小的改变代表从一个状态到下一个状态的转化程度。
图1 从社交媒体热议到学术引用的路径
虽然社交媒体讨论与论文的被引次数之间的相关性不高,社媒讨论也不会直接对论文的被引产生所用。然而,论文在社交媒体中所受到的关注会带来更多的论文下载次数,进而产生引用。此前的研究,包括Nature的文章之所以推论社交媒体热议不会带来更多的论文引用,是因为研究的时间窗口还不够。毕竟,社交媒体的繁荣也就是这3-4年时间,而论文的被引高峰通常需要更长时间。我们认为,论文在社交媒体中的传播会对论文的被引产生额外的贡献。