2.1.2 共词分析理论
所谓共词分析,就是利用文献集中词汇对或名词短语共同出现的情况,来确定该文献集所代表学科中各主题之间的关系。一般认为,词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。由此,统计一组文献的主题词两两之间在同一篇文献出现的频率,便可形成一个由这些词汇对关联所组成的共词网络,网络内节点之间的远近便可以反映主题内容的亲疏关系。共词分析就是以此为原理,将文献主题词作为分析对象,利用多种统计分析方法,并结合可视化软件,把众多分析对象之间错综复杂的共词网状关系以知识图谱的形式表现出来。通过分析这些词所代表的主题内容以及它们在知识图谱中的相对位置和距离,可以探究主题的结构变化和转移趋势。由于它是对当前发表文献的直接统计,既可以用来分析公开发表的科学期刊,也可以分析专利、政策报告等灰色文献,能够分析当前论文所集中关注的主题,因此特别适合对前沿研究领域的寻找和预测。因为前沿领域的研究往往人数众多而不集中,作品比较分散,被引用情况不稳定,而主题词却能很好地体现该学科的研究热点、发展方向。当然,知识图谱是共词分析的一个应用之一,由于它属于内容分析方法的一种,因此共词分析还被用来对文献进行组织,提高数据库的检索效率。
共词分析方法最早在20世纪70年代中后期由法国文献计量学家提出的。1986年,法国国家科学研究中心的的M.Callon,J.Law和A.Rip出版了Mapping the Dynamics of Science and Technology,他们把主题词和关键词聚类成簇,并以网络地图的方式表现出来,通过比较不同时期的网络地图,就可以表现出科学的结构和动态变化。因此,早期共词分析方法最常用的就是聚类分析,并引入了包容指数、临近指数、等值系数指数等以及一系列计算公式。1988年Law等提出用“战略坐标”来描述某一研究领域内部联系情况和领域间相互影响情况[2]。而随着计算机技术的发展,用多维尺度分析图对共词分析的结果进行展示得到了广泛的应用。
国内目前利用共词分析构建的知识图谱大多是聚类树图或多维尺度分析图或者二者的结合。例如邓中华等对国外网络计量学的共词分析[3];也有把多种图示方法结合起来分析的,例如周静怡[4]等就是分别用聚类树图、战略坐标及社会网分析软件生成的共词分析网络结构图构建了人类基因组领域研究的知识图谱。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。