【摘要】:在集成词表中,这样的存储格式既不便于词表的动态维护,也不便用户方便、快捷地查寻词汇,降低词表的转换效率。因此,必须将原数据格式利用程序进行转换,生成TF和RF两种格式。如果两个源词表的某一词汇及其参照关系完全相同,但由于来自两个不同的词表,仍以两条记录形式在集成词表中出现。
源数据格式转换_情报检索语言的兼容转换
2.2.2 源数据格式转换
通过上述操作,各词表中有关的词汇已录入计算机系统,每个词汇及其有关参照项组成一条记录。通常情况下,人们习惯用这种方式存贮词表,以尽可能与原表保持一致,符合用户使用印刷版的习惯。在集成词表中,这样的存储格式既不便于词表的动态维护,也不便用户方便、快捷地查寻词汇,降低词表的转换效率。如果要查寻一个词汇,必须先查到该词在两个数据库的记录,然后才能进行操作。因此,必须将原数据格式利用程序进行转换,生成TF和RF两种格式(见表2-2)。
表2-2 源词表的数据结构
续表 2-2
TF和RF有以下优点:使词表中的每个词只出现一次,既能节约大量的存储空间,又能提高查寻效率,同时便于对每个源词表进行动态维护;把参照项转换为字段值,而不是字段;整个系统并不受源词表多少的影响,需要集成的词汇表随时可以补充进来,而不需要对已生成集成词表的数据进行更新。
通过这种方法生成的集成词表要占用大量的存储空间,因为必须确保每个源词表的词汇及其参照都包括进来。如果两个源词表的某一词汇及其参照关系完全相同,但由于来自两个不同的词表,仍以两条记录形式在集成词表中出现。
《汉表》、《社科表》和《经管表》TF和RF格式的记录数量参见表2-3。
表2-3 三种叙词表的记录数量
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。