首页 理论教育 整合现有词表

整合现有词表

时间:2023-02-27 理论教育 版权反馈
【摘要】:许多研究机构已经采用现有叙词表或词典辅助联机信息检索系统,如美国国家医学图书馆的统一医学语言系统项目整合了多部专业领域词表和知识资源,目的在于建立一个智能自动化系统,该系统能够理解生化语词和它们之间的相互关系,最终达到帮助用户检索和组织机读信息资源。
整合现有词表_自然语言叙词表自动构建研究

3.1.1 整合现有词表

即通过互操作技术把两个或多个词表合并为一个词表,在合并的过程中同时保证子词表的完整性。该方法简单、快捷,适用于学科或相关领域发展较为成熟,存在比较权威的词表,如叙词表、索引表、词典、术语表等的情况。许多研究机构已经采用现有叙词表或词典辅助联机信息检索系统,如美国国家医学图书馆的统一医学语言系统项目(UMLS)整合了多部专业领域词表和知识资源,目的在于建立一个智能自动化系统,该系统能够理解生化语词和它们之间的相互关系,最终达到帮助用户检索和组织机读信息资源。UMLS含有一个超级叙词表(Metathesaurus),一个语义网络和一个信息资源地图,该超级叙词表包括来自30多个不同词典和叙词表的生物化学概念和词汇;语义网络包含元叙词表中语词的类型(疾病、病毒等)和类型之间允许的关系;信息资源地图包含注释、出处、词典和各种生化数据库的访问状况[1]。美国艺术和建筑词表(Art and Architecture Thesaurus,AAT)的编制最初以LCSH的词汇为基础,通过整合多部领域叙词表和词汇列表中的词汇对其充实和完善而成,并以类似于医学主题词表(MeSH)的等级结构组织这些词汇,从而产生了一部分面等级词表[2]

这种方法的缺陷在于,现有词表一般反映较为通用的主题领域信息,移植到计算机检索系统时,并不能明显改善检索效率,需要经过大量增、删、改工作。另外这种方法需建立在现有词表基础上,并不适用于词表缺乏的新兴学科领域。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈