(一)关联标签(Folksonomy+本体)的晶格模式(基于概念格的关联标签)
针对Folksonomy知识组织模式中新展露的关联标签辅助导航现象,以BibSonomy.org真实数据为研究对象,从BibSonomy.org的标签云导航页面中选择了“ontology”标签(包括其复数形式“ontologies”),获得另一个梯次的关联标签,然后通过形式概念分析(FCA)的方法构建关联标签概念格,并基于概念格对关联标签进行聚类分析和关联规则挖掘,以此揭示出关联标签间隐含的概念间关系和潜在的语义关联,分析了Folksonomy知识组织模式中隐含的结构特征,丰富和完善了Folksonomy知识组织模式的标签导航体系(见图6-15[14])。
图6-15 基于概念格的关联标签结构分析
首先,采用概念格对关联标签进行聚类分析,突破了传统分类口径的桎梏。以往的研究中,对知识概念的聚类往往基于学科类目的划分,人们在聚类过程中总是潜意识地将知识概念按照所属学科或分支加以聚集和归类,不利于对潜在模式和规则的挖掘与发现。将概念格的理论与技术引入关联标签研究,通过“对象一属性”的偏序关系,提取了隐含在数据中的最大频繁项集,使得聚类结果突出了关联标签最为本质的知识特征。并通过概念间的多重继承关系以可视化的方式保留和展示了关联标签间的关联关系(见图6-16[15])。
图6-16 基于概念格的“Knoeledge”关联标签细粒度分析
其次,采用概念格对关联标签进行关联规则挖掘,可以动态调整挖掘粒度,有助于细节信息的呈现与揭示。以往的挖掘方法大多需要在挖掘工作开展之前事先确定支持度、置信度等相关阈值,以此来消减冗余规则、提高挖掘效率。这种状态下一旦需要调整相关阈值,则必须展开新一轮的挖掘工作,而在关联规则挖掘中对阈值的调整恰恰又是有效规则提取的必要手段。基于概念格的关联规则挖掘中,一旦建格工作完成,所有的数据细节均被保留,可以根据任务需要对阈值进行调整而不会影响概念格结构,阈值调整仅仅关系到规则的筛选,而无须重新展开挖掘,提高了挖掘的效率。
最后,通过基于概念格的关联标签聚类分析与关联规则挖掘,对关联标签的结构特征进行了细致刻画与深度分析。Folkson-omy从其诞生之日起,就被许多学者冠以“平层型”结构的印象,也正是因为这一原因,学术界探寻Folksonomy内部结构特征的努力一直没有间断过。通过基于概念格的关联标签语义关联的分析,证实了同一梯次关联标签间存在的“语义关联词(Semantic Synonym)”结构,以及第二梯次关联标签相对于第一梯次关联标签的“语义下位词(Semantic Hyponym)”关系。对于完善Folksonomy知识组织模式的标签导航体系做出了有益的探索。
(二)开放存取期刊(OAJ)的晶格模式(基于概念格的开放存取)
1.开放存取期刊的关键词分析
近年来,随着关键词标引在各类网络数字图书馆的兴起,尤其是开放存取期刊领域,学术界对于这种介于受控词表与自然语言之间的标引模式产生了浓厚的兴趣。如何通过这种具有较强自主性的非受控标引模式呈现领域内学科和主题的结构与关联,对领域知识加以有效组织,揭示领域研究热点与发展脉络,成为图书情报学界普遍关心的热点问题。在此期间,针对文献关键词的词频分析、共现分析、耦合分析、聚类分析、社会网络分析等一系列新颖的分析方法纷纷涌现,并以不同的视角和目的丰富了文献关键词分析的方法与手段。
上述分析方法各有优势,但是在面对网络环境下海量数据、开放存取、自主标引等新问题时也显露出其诸多不足。词频分析主要通过词频分布与词频增长等指标反映学科主题的热点及变化,但在揭示主题关联性等方面力量薄弱;共现分析以文献集合内“关键词对”为分析对象,其基于组合统计的“词对”提取需要浩大繁重的计算工作;耦合分析可以通过关键词之间的耦合强度在一定程度上揭示学科领域的发展现状与变化趋势,但其缺少强有力的理论支撑;聚类分析虽然在呈现文献内聚度方面具有较大的优势,但在类间关系的说明上仍显不足;社会网络分析有利于呈现领域内文献的整体架构,但往往对关键词元数据结构具有特殊的规范要求。直至本世纪初,随着概念格理论的逐渐成熟,开始有学者采用形式概念分析(FCA)的方法进行学科领域的文献关键词分析。
2.开放存取期刊的晶格模式(关键词粒度概念格)
该研究选择世界著名的DOAJ(Directory of Open Access Journals)开放存取资源平台作为研究对象。DOAJ是瑞典Lund大学图书馆与2003年创建的开放存取资源检索平台,截至2011年5月28日已收录6568种学术期刊,其中2917种期刊可以获取文章内容,收录论文总量达574023篇。研究中以“Title=ontology”为检索式,初步获得“本体”文献339篇。经过单复数、同义词、近义词、密切相关词等原则对关键词进行筛选后,最后获得6类高频关键词共159个,涉及文献58篇。
针对开放存取(OA)资源区别于传统馆藏资源的特点,该研究在形式概念分析(FCA)的基础上提出了“粒度概念分析(Granularity Concept Analysis,GCA)”的方法(见图6-17[16])。
图6-17 颗粒度概念分析GCA
如果说关联概念分析(RCA)是在形式概念分析的基础上着重于在概念横向关联方面的延伸,那么粒度概念分析(GCA)则强调在概念纵向细节方面的拓展。
这个细粒度概念格Hasse图(见图6-18[17])是在粗粒度概念格分析得到的核心关键词之一“本体工程领域”的基础上进一步细分的结果,从这个Hasse图可以得到:在本体工程领域14篇核心文献的49个关键词当中,概念格自动形成了6个聚类,该聚类呈现出“本体匹配”、“语义Web”、“本体对应”、“本体”、“本体工程”、“知识共享”这6个关键词在本体工程领域的统驭地位。这一聚类结果客观地反映了国际学术界本体工程相关研究的发展现状,也在数字图书馆知识组织中极大地发挥了OA资源快速发布、交流与共享知识的优势。
图6-18 细粒度概念格(Hassle图)
该研究以概念格理论为基础,在形式概念分析(FCA)的基础上,提出了粒度概念分析(GCA)的方法,再以此方法从DOAJ(Directory of Open Access Journals)开放存取资源平台抽取文献数据,构建了不同粒度概念格。通过基于粗细不同粒度概念格的挖掘,对Ontology领域的相关文献进行了关键词分析,从而呈现和揭示了Ontology领域相关知识的结构和内在关联。这种方法的最终目的也是为了探索一种基于文献关键词分析的OAJ资源知识组织的新途径。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。