3.3.1 洛特卡定律
1926年,在美国一家人寿保险公司供职的统计学家洛特卡经过大量统计和研究,在美国著名的学术刊物《华盛顿科学院学报》上发表了一篇题名为《科学生产率的频率分布》的论文,旨在通过对发表论著的统计来探明科技工作者的生产能力及对科技进步和社会发展所作的贡献。这篇论文发表后并未引起多大反响,直到1949年这一研究成果才引起学术界关注,并誉之为“洛特卡定律”。
洛特卡选择美国《化学文摘》和德国奥尔巴赫《物理学史一览表》为数据源研究科技工作的论著数量分布。他统计分析了《化学文摘》1907—1916年10年累积索引中的部分作者,即姓氏以字母A和B开头的6 891位作者。分别列出发表过1篇、2篇,一直到346篇论文的人数。《物理学史一览表》包括了1900年前物理学领域内出现的1 325位物理学家及其论著,取其全部数据进行统计(数据表略)。
利用上述数据,洛特卡以论文数(x)和作者数(yx)的对数为横坐标和纵坐标(即logx和logy)作图,两组数据都是直线(如图3-4所示)。图中虚线表示《化学文摘》数据,实线代表《物理学史一览表》的数据。用最小二乘法计算拟合直线的斜率,近似为-2。
图3-4 洛特卡分布曲线
据洛特卡分析,在论文数x和作者数yx之间,存在着下列一种关系:
xnyx=c (3-9)
式中,yx是发表了论文x篇的作者数,n和c是对应于这一典型数据集合而估计出来的两个常数,n的数值在2上下波动。具体到洛特卡统计的实例,指数n近似为2.0。于是(3-9)式可改为:
上式两边同除以著者总和∑yx得:
令f(yx)实际表示写x篇论文的频率(即占作者总数的比例)是新的常量,表示作者取样总数的比例,这样(3-11)式可写成:
这就是著名的平方反比分布,现求常数C。令x=1,2,…,n,…,则f(yx)分别为f(y1),f(y2),…,f(yn)…,我们有:
两边取累积和:
亦即:
由于f(yx)表示写x篇论文的作者出现的频率,显然有:
亦即:
按照平方反比分布,所有生产一篇论文的著者的比例刚刚超过60%。例如在《物理学史一览表》数据中,共有1 325位作者,写一篇论文的为784人,占总数的59.2%。《化学文摘》数据中,姓氏以A开头的作者共1 543人,写一篇论文者为890人,占57.7%;以B开头的作者共5 348人,写一篇论文者3 101人,占57.98%。二者合计平均后占作者总数的57.9%。如果取绝对数,则可表述为:生产2篇论文的作者大约是生产1篇论文作者数的,生产3篇论文的作者数量大约是生产1篇论文作者数的。生产n篇论文的作者数量大约是生产1篇论文作者数量的。
洛特卡定律是对两组数据统计的推广,是对信息生产的一般理论估计,而不是一个精确的统计分布,因而有其局限性。在洛特卡之后,许多学者采用不同的数学工具对不同学科领域的数据进行研究,都获得了与洛特卡定律相同的结论,只是(3-9)式中的n和c是更为一般的参数而不是常数。经典的洛特卡表达式即平方反比分布可视为特例。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。