De Solla Price, D. J. (1965). Networks of Scientific Papers. Science 149 (3683): 510–515
这是一篇频繁被引用的经典文献。
我们首先要注意到的是它发表的年代:1965年。也就是说,是在刚刚有了引文索引之后,借助这一工具,开始探索引用,引文等等行为的规律。
其次,不要被论文的标题所迷惑,科学论文的网络,尤其是Price自己还在论文下方写了一个题记:书目引文的模式可以表明科学研究的前沿。望文生义地以为这是一篇关于引文网络的论文。细读之下,个人感觉这里所说的“论文网络”只是个概念上的相互联系的论文群体,因为有了引文这种联系,网络才有可能得以显现;而真正意义上的论文网络在当时还是一个梦想中的乌托邦,是大师们一个美好的向往。
Price在这篇文章里都讲了些什么呢?
1.引文率。对!就是每篇论文拥有参考文献数目的问题。
利用1961年SCI的数据,Price发现:
篇均引文15条,其中12条为期刊文献。10%的论文没有引文。50%的引文来自于85%的普通研究论文,每篇论文拥有参考文献数不超过25条。引文的分布(图形)比较平坦,有3,4,5,6,7,8,9和10条引文的论文占5%,但是综述论文却拥有大量的引文。全部引文的25%来自全部论文的5%,每篇论文含有45条以上的引文,平均每篇75条引文。12%的引文来自全部论文1%,最为肥胖的部分,每篇论文有84条以上参考文献,平均达到179条参考文献。有趣的是在这个最胖的1%类里,有n条引文的论文数呈现1/n2的关系,每篇论文的参考文献数达到几百条。
当然这些引文覆盖了以往的全部文献。我们可以粗略的计算,既然几个世纪以来全球文献数量以指数增长,并且可能会持续每年7%的增长速度,就是说在某一特定领域,过去每发表100篇论文就会有7篇新论文,而这7篇新论文平均15篇参考文献就会带来对以往发表的100篇论文的105次引用,因此被引用次数平均会略高一些。如果从长时间大范围来看,我们发现平均起来每一篇科学论文发表后每年被引用一次。
2.被引率
在任何一年里,有约35%的论文一次也没被引用,49%的论文只被引了1次,剩下的16%里,平均每篇被引用3.2次,约9%被引用2次,3%被引用3次,2%被引4次,1%被引5次,剩下1%被引6次及以上。对于高被引次数(大的n),被引论文的数量似乎以n2.5或者n3.0的速度下降,这个速度要比论文拥有参考文献的数目增长的快多了,高被引论文的数量也确实比拥有大规模参考文献的论文数量少多了。这样一来,只有1%的论文被引6次及以上,平均被引次数为12次,一篇论文最大被引用次数要比同级别论文含有最大参考文献数要小很多。但是也有类似的发现,比如全部论文中5%是综述文献,有25篇以上的参考文献,全部论文中4%看着像经典文献,每年被引4次以上。
参考文献数量各年之间变化不大,但是单篇论文被引的次数则各年变化。一篇论文在某一年没被引用但是下一年有可能被引用很多,某一年被引较多的论文不一定后来也被引较多。高被引论文似乎反复无常,但是尽管如此我还是怀疑有统计规律在其中。我猜测目前的结果可以用每年有10%以上的论文死去的假说来解释,不再被引用。活下来的论文每年被引用一次的机会是60%,这意味着一篇论文10年后就完成了自己的主要使命。此类过程达到一个稳定状态,所有发表论文中有10%从未被引用,10%被引用1次,9%被引用2次,以此类推,百分比缓慢下降,所有论文中将要一半的论文被引用5次以上,四分之一被引用10次及以上。当前急需研究是否有概率表明一篇论文被引次数越多,以后被引的机会越大。对我来说,以后的工作就是探索快速确认经典论文,可能利用引文索引产品程序把“超经典论文”自动挑选出来并发表在《美国(或者世界)真正重要论文杂志》上。
不幸的是,我们对文章被引用次数及其参考文献数目之间的关系知道的太少了。因为初步简单的判断表明对于高被引论文来说,其参考文献的数量的分布有着相当标准的模式,我推测如果存在着相关关系的话,会是很小的。当然,对于综述文章没有强烈的趋势被引次数超出正常地高。如果我的推测有效,需要注意到:因为10%的论文没有参考文献,另外,假设几乎是独立的,有10%的论文从未被引用,遵循着:全部论文中有低到1%的论文在引文网络中完全孤立,只能通过主题索引或者相似性检索的办法找到。这些是很小的类,而且也是最不重要的一类。
一年之内参考文献和引用文献之间的平衡可以说吗网络的最重要属性。尽管每年产生的大多数论文含有接近平均数的参考文献,其中的半数参考文献是指向过去年代发表的论文的一半。另一半的参考文献把这些新论文与相当少量的更早的论文联系起来,产生了多种关系的密集模式。如此一来,每一组新论文都与一小撮现有科学文献中选择出来的部分密切交织在一起,同时又与一大批文献松弛和随机地联系起来。由于只有一小部分较早的文献通过新的文献密切联系起来,我们可以将这一部分当做一类生长锥或者表皮,或曰活跃的研究前沿。我相信,正是由于科学前沿的存在,从这个意义上讲,将科学从学术的其他部分区别开来;也正是因为科学前沿,我提出统计分析的主要任务之一就是确定能让科学交流要比非科学交流要快很多的机制。
对某一年内所有被引文献的出版日期分布的分析也让我们进一步了解研究前沿的存在。利用1961年的数据大多数数据都在,我发现1961年发表的论文引用从1961年以往的13.5年区间的文献按照2的速度下降,这种下降速度接近于文献发表速度的指数增长。这样一来,被一篇1961年发表论文引用的机会几乎等同于被1961年以前15年间发表的所有论文引用的机会,被引率假设按照前面计算的每篇论文每年被引的平均值。需要注意到,随着时间的流逝,引用以往发表论文的新论文越来越多,因此,任何论文被其他后来论文引用的几率也成-2的指数下降,每13.5年。
15岁以下的论文的被引率要比每论文每年被引一次的标准值大很多,被引率稳定增长,从15岁的论文被引2次以下到5岁论文被引4次,2岁半论文被引率达到最高值标准值的6倍。当然,对于太年轻的论文被引率又下降,因为没有时间被注意到。
顺便说一下,这个曲线让我们看到并剖析战争期间论文生产的下降。和那些人力指标以及其他文献指标一样,该曲线提供了一个绝佳的证据,表明论文的生产在第一次和第二次世界大战开始时从预期的水平上下滑,然后分别在1918年和1944年下降到正常论文水平的一半,再从1926和1950突然上升到正常水平。由于这种下降,在确定文献增长指标时应当去掉1914-25以及1939-50期间的数据。