4.1 数字科学信息组织原理
数字科学信息组织是指对各种以数字形式存在的科学事实、数据、文献、出版物(包括声音、图像、软件)等,通过分析、标引(分类的和语词的)、著录(信息特征的描述)、排序、链接(把相关的信息联系起来)等手段,使之形成一个有序的、便于用户理解和查询的信息系统,这个系统揭示知识的整体联系和相关知识间的联系。与传统的信息组织相比,数字科学信息组织的基本思路与步骤并没有改变,即通过标引和著录来揭示和描述信息,然后通过排序、链接等手段来序化信息;两者之间最大的差异在于:依据何种规则来标引和著录信息、采用何种手段来序化信息,以及在信息组织的深度与广度上的差异。
数字科学信息组织的工作方法有两种来源:一是改进传统的信息组织方式,并将之应用于数字科学信息组织。这可以看做是传统信息组织方式在数字世界的延伸。二是以ICT技术为核心的现代信息组织手段和方法,它代表了数字信息组织的核心和趋势。
4.1.1 数字科学信息的描述与揭示
由于描述与揭示的对象发生了变化,加上描述与揭示手段的发展,人们亟需开发和完善内容特征标引和形式特征描述相结合的数字科学信息资源标识系统,以便为长期、可靠地存取数字资源提供规范方法。其中MARC,基于HTML、SGML和XML的元数据体系等都是典型的数据描述语言标准。
4.1.1.1 机读目录格式及其扩充
机读目录格式(MARC,MAchine Readable Cataloging)最早是一种为图书馆制作书目而开发的用于存储、交换、处理以及检索信息的描述性标准。为了实现电子资源的存取和检索,1991年5月美国国会图书馆提出以MARC为主要架构,制定囊括数字信息的相关字段。在随后几年中,有关机构对MARC进行了多次修订,以便其能够适应描述数字信息资源的需要。这些修订包括:
(1)增加、修改008字段第26位数据元的代码。增加的代码包括“字体”(font)、“游戏”(game)、“书目资料”(bibliographic data)、“声音”(sound)、“网上系统或服务”(online systemor service)等,拓展了MARC所描述的数字信息资源的范围。此外,还更改了该代码的设定值,如以“文本”(text)取代“文献”(document),以“图示”(graphic)取代“表现”(representation),以“数字的”(numeric)取代“数字数据”(numeric data)等。
(2)修改5XX字段。为了准确、详细地记录资源格式内容,在505格式化内容附注(formatted contents note)、514数据质量附注(data quality note)、520提要注(summary ETC.)等字段增设了$u子字段,记录资源的URL,并增设了526研究计划附注(study programinformation note)字段。
(3)建立856电子资源定位及存取(Electronic Location and Access)字段用于描述电子信息资源(如网页、电子期刊、Telnet系统、FTP站点等)的特征、连接方式和存取要求。它能对一些具有复杂描述格式的数据进行详细的标识,其内容包括:存取方式(如电子邮件、FTP、Telnet、Gopher或Http)、主机名称、路径、文档名称和其他可以协助用户通过网络获取数字信息的方式。这个字段的增设大大加强了MARC格式整理与组织数字信息资源的能力。
(4)1999年,美国国会图书馆和加拿大国家图书馆联合对外公告将USMARC和CANMARC两种格式合并成为MARC21,以适应21世纪全球应用的需要。这个机读格式家族包括5种格式:书目(Bibliographic)、权威(Authority)、馆藏(Holdings)、分类(Classification)和社区信息(Community Information)。
由于修订以后的MARC信息资源覆盖范围扩大,它在数字科学信息资源描述领域得到了广泛应用。OCLC的一个互联网编目项目Inter Cat(The OCLC InternetCataloging Project)就采用MARC格式进行编目,现有MARC记录4.5万条。另外,情报市场上还有一些新的互联网MARC编目工具,比如MARCit。当图书馆员要将一个网站加入本馆目录时,简单地按一下安装在图书馆浏览器上的MARCit软件图标,输入一些编目信息,存盘,MARCit便会由浏览器“抓取”站点的标题、URL及其他数据,自动在OPAC上建立一条MARC记录。
不过,由于采用MARC格式要遵循AACR2、LCSH(受控词表)、科学分类法等一系列标准,编目必须由专业人员承担,投入费用高,所以一般认为它只适用于描述重要的数字信息资源;对于大量的一般信息,则需要一种为非编目人员设计的、能直接在网页上使用的、更为简单方便的编目格式,元数据就是这样的一种格式。
4.1.1.2 基于HTML、SGML和XML的元数据体系
元数据(Metadata),即关于数据的数据(data about data),是用来标识、描述和定位数字信息资源的数据,是面向某种特定应用的机器可识别、可理解的信息。[1]元数据通常由多个按照既定编码语言和编码方式对信息资源属性进行特征描述的元素组成,这些元素按照一定的整体结构和相互关系形成具体的元数据格式,应用于特定的主题或专业领域。其中标准通用标记语言(SGML,Standard General Markup Language)是由国际标准化组织提出的一种适合书目、文献全文、电子文献及多媒体信息描述的标准(ISO8879-1986)。它利用通用方式和元标识语言对文献内容和结构进行标记,实现对各类文献结构和内容的系统化、标准化描述,从而建立起通用数字信息系统。由于其体系过于庞大和复杂,因此人们以SGML的一个子集为基础开发了超文本标记语言(HTML,Hyper TextMarkup Language)。它提供了一种相对简单但是又能够表示信息结构和格式的标记技术。不过它在描述和揭示数字信息资源方面仍然存在某些缺陷,比如它不能区分信息与元信息,不能满足有些文献如学术电子文献的结构描述要求等。因此,随后又出现了可扩展标记语言(XML,Extensible Markup Language)。这种语言也源自SGML,它集标记语言、元语言和链接语言于一身,提供了描述数据和交换数据的有效手段,弥补了HTML的不足。围绕着HTML、SGML、XML环境,产生了种种元数据规范,其中用于数字信息组织和发现的著名元数据标准如都柏林核心元素集(DC,Dublin Core Element Set)、互联网内容挑选平台(PICS,The Platformfor Internet Content Selection,)、Web Collections、频道定义格式(CDF,Channel Definition Format)等(详细的介绍请参见: 7.4.1元数据方案)。
4.1.2 数字科学信息的序化
要充分利用数字科学信息资源,仅仅描述和揭示它们是不够的,还应运用一定的规则和方法来对其加以组织。原来用于序化印刷文献信息的方法如分类法和主题法仍然有用,只是应该对它们做适合数字信息特点的改造,或者采用新技术如自动分类、自动标引等来帮助提高工作效率。除此以外,还可以利用超链接等方式来序化数字科学信息资源。
4.1.2.1 数字科学信息组织的分类方法
由于分类这种组织信息的方式符合人类认识事物的逻辑思维习惯,因此长期以来都广泛地被用做重要的文献信息组织手段,并且在理论与实践两方面都有了深厚的积累。
文献分类法用于组织数字信息资源有其独特的优势,因为它们往往涵盖人类各个学科领域的知识分类体系,而且经过长期的发展和完善以后,类目之间逻辑关系严密,能够比较全面、充分地揭示知识之间的联系。但是,由于传统分类法主要是针对印刷型文献编制的,它在组织数字信息方面也有许多不适应性,比如:分类独有的聚类功能为揭示和组织网上的非结构化信息资源提供了一条可行途径,但是现有分类法不能充分发挥这方面的优势;文献分类法通常稳定性太强,对网上高度动态的信息资源缺乏适应能力;文献分类法严密而深细,隐含的联系和限定贯穿于整个分类体系,对用户来说缺少易用性等。由此可见,在利用分类思想组织数字科学信息的过程中,既要充分借鉴和利用现成的文献分类法,并根据分类对象的新特点对它们加以改造和完善;又要积极地利用现代技术所提供的新的可能性,开发适用于数字信息资源的分类法。
目前国际上有许多改造现有分类法的努力,致力于实现传统分类法的机编化和机读化。著名文献分类法如杜威十进分类法(DDC,Dewey Decimal Classification)、国际十进分类法(UDC,Universal DecimalClassification)、国会图书馆分类法(LCC,Library of Congress Classification)等都在组织和管理数字信息资源方面取得了相当的进展。由于第21版“视窗版杜威分类法”(Dewey Windows)的问世,其中尤以DDC在互联网资源组织中应用最为广泛。[2]据统计,截至2003年2月共有25家网站应用了DDC。[3]其中,OCLC研究人员根据DDC类目在互联网资源数据库NetFirst中出现的频率,提高或降低用于联机检索的DDC类目级次,使之比标准的DDC类目更具描述性,以适应网络浏览检索的需要。[4]英国高教系统图书馆的“艺术设计、设计、建筑和多媒体检索系统”,依据DDC的专类表700(艺术类)来组织艺术设计、设计、建筑和多媒体博物馆等领域的有关站点。国内《中图法》也被适度改造后用于“超星数字图书馆”、“中国科技期刊数据库”等网上电子数据库的分类浏览系统和期刊论文全文检索系统,但是与国外的同类实践相比应用范围较窄,而且所组织的信息资源类型也较为单一。
此外,更多的浏览型网络检索工具如雅虎、Galaxy、搜狐等则借鉴分类法组织和揭示信息的思想与原理创建自己的分类系统进行信息组织,例如:雅虎将所收录的全部信息分为14大类[5],然后根据其拥有的信息量把每一个基本类目细分为不同层次的次一级类目,从而建立起由类目、子类目等构成的可供浏览的相当详尽的分类等级结构;搜狐将所收录的数字资源分为16个大类[6],各大类下又再细分为二、三、四级类目,形成一个包括5万多各级子类目的庞大树形结构;中文搜索引擎“数字指南针”提供一个包含58个一级类目的学科分类系统,各类目按类名字顺排列,然后一级类目下再设若干二三级类目。
不过,要将分类法成功地用于数字信息资源组织,其关键是必须针对数字信息数量巨大、更新迅速等特点,采用自动分类和标引技术,只有这样才能充分发挥这种信息组织方式的强大功能。目前国际上已经有了这方面的实践:由瑞典伦德大学图书馆和丹麦国立技术图书馆合作进行的WAIS万维网项目就是这样一个自动分类的实验项目;日本也进行了一个名为“国际十进分类法数字自动组合系统”(UDC—AUTCS)的项目。在我国,研究并建立《中图法》和《科图法》与数字信息之间的联系,实现自动分类与标引,已经十分必要。
概而言之,用分类方法组织信息,允许用户以浏览的方式查找某一类信息(族性检索功能),而且可以方便地进行扩检和缩检,符合人们查找信息的习惯,因此在数字信息组织中具有不可替代的作用。数字信息分类法收录的类目范围比较广泛,类目的调整更新迅速,通常从便利用户使用出发,直接以检索的事物为中心来设置类目,并且重视结合数字显示特点,采用多重列类的方法从不同的角度重复反映和揭示信息。不过,数字信息分类法目前也存在不少缺点,比如许多类名不够确切,类目设置缺乏规律性,类目之间逻辑性不够,不同的分类系统各自为政、缺乏规范等。这些是在未来的理论研究与实践活动中应加以逐步克服的。
4.1.2.2 数字科学信息组织的主题方法
如果说分类法是从学科体系的观点出发,根据知识的逻辑顺序来组织信息;那么主题法就是从事物本身出发,用文字、词语的字顺为信息排序。两者分别代表了人类思维的两个侧面。因此,正如传统文献分类法仍用于网上信息资源组织一样,传统主题法也被用于数字信息资源组织。[7]目前,常见的用于数字科学信息组织的主题法主要有两种:综合性的《美国国会图书馆标题法》(LCSH)和专业性的《医学主题法》(MeSH)。用LCSH来整理数字信息资源的系统如美国加州大学河岸分校图书馆建立的INFOMINE;用MeSH来组织数字信息的系统如俄勒冈卫生科技大学建立的Clini Web。一般来说,主题法在数字信息组织中的具体应用有以下途径:
(1)使用关键词法组织数字科学信息。关键词法是一种采用自然语言来组织信息的方法,由于关键词能深入、直观地揭示信息中所包含的知识,而且符合人们的思维习惯,因此关键词法在数字信息组织中得到了广泛应用。网上各种各样开放式的搜索引擎和数据库大多同时采用了关键词法组织信息,如雅虎、Infoseek、Hotbot、网易、搜狐等;另外如中国科技期刊数据库、中国学术期刊光盘数据库等也大多使用关键词法来组织信息。关键词法组织信息有许多优点,如:标引时不必查表,速度快、成本低;可由作者或机器自动标引,不依赖专职标引人员,效率高;能及时应用最新词汇,不存在滞后性,等等。但是由于关键词完全取自自然语言,未进行同义词及反义词控制,不能揭示词间关系,因此关键词检索的检准率较低。改进方法是导入受控语言机制,如使用“标引不控制+检索控制”模式,一方面保留自然语言的优点,同时对影响检索效率的不利因素加以控制。
(2)使用标题法组织数字科学信息。标题法是主题法系统中最早出现的,它是用规范化了的自然语言,即经过标准化处理的名词术语作为标识,来直接表达信息资源所涉及的主题,而不管该信息资源是从哪个角度和学科来论述该事物的;不管各个标识表达的主题之间的逻辑关系,全部标识按字顺排列。标题词表在数字信息组织中的应用可以分为两种情况:一是通过标题词表规范用户的检索表达式。用户可以先在数字信息组织工具提供的词表中检索到标准标题词及相关联的词汇,以该词作为检索词,点击表中超链接即可得到检索结果。二是在给出用户检索表达式检索结果的同时,提供相关词作为用户进一步检索的线索,用户可以自由扩检或缩检,从而提高检索效率。[8]
(3)使用叙词法组织数字科学信息。叙词法取自自然语言并加以规范化的词语作标识,并且严格以概念组配为原则进行词语组配,而当预见到使用组配表达某些概念会产生意义失真时直接选用词组。由于叙词法是主题法中较后出现的一种方法,它吸取了其他多种方法的优点,是一种质量较高并能较好适应电子计算机系统的信息组织方法。目前叙词法在数字信息资源组织特别是在一些数据库的信息组织中得到了充分应用,如INSPEC(Information Servicein Physics,Electronics Technology and Computer and Control)数据库中的Thesaurus检索模式、MEDLINE数据库中的Thesaurus检索模式等均采用叙词法组织信息。由于叙词是一种规范化的检索语言,其参照系统和索引系统都比较完善,适宜于科学组织和管理数字信息。但是叙词表及其参照系统一般规模庞大,给计算机处理带来一定程度的不便。另外,非专业人员未经训练很难掌握其使用方法,因此叙词法组织数字信息仍然存在一些需要解决的问题。
(4)使用分类主题一体化方法组织数字科学信息。分类主题一体化方法是将分类法与主题法有机地融合为一个整体,既充分发挥各自独特的功能,又通过配合发挥最佳整体效应,是未来信息组织法的发展趋势。目前国内外都在这方面进行了大量研究,提出了多种一体化方案,并编制了许多一体化词表,如《分面叙词表》(Thesaurofacet)、《联合国教科文组织叙词表》(UNESCOThesaurus)、《基础叙词表》(Root Thesaurus)、《中国分类主题词表》、《社会科学检索词表》等。主题法与分类法结合的方式有两种。一种是建立主题范畴来系统组织信息,同时又通过标注分类号,使按主题法组织的信息保持与分类体系的联系。如美国加利福尼亚太平洋贝尔建立的“蓝网主题范畴”(BlueWeb'sContentCategories)就以主题范畴为中心建立等级体系,主题范畴后附有相应的DDC号码;各层次的范畴类目均于相应层次中按字顺排列。还有一种是同时使用主题代码系统和分类表来组织信息。如美国计算机研究文献中心建立的“计算机研究资源”(CoRR),同时采用计算机机械协会的《计算机分类表》(1998 ACMComputing Classification System)和一个概略的字顺主题系统来组织数字信息资源,并提供两种数字信息资源的浏览途径。
将分类主题一体化方法应用到数字信息组织中,一方面应尽快实现一体化词表的机读化,另一方面可利用一体化词表组织网上超文本系统,设计和管理文本系统的链路,这样用户就可以随意选择检索途径,从而为信息检索带来极大方便。
4.1.2.3 数字信息组织的超链接方式
除了利用分类法和主题法来组织数字科学信息以外,最能够充分利用计算机与数字的新特点和新功能的信息组织方式当属超链接,可以说超链接是数字信息组织的基础。另外,这种新型的信息组织方式也符合人类的思维习惯。因为采用这种结构来组织科学信息资源,信息之间没有固定顺序,也不要求用户必须按某种顺序来浏览和阅读信息,因此各信息单元很容易按人们的“联想”方式加以组织。而人类对信息的检索、存取、处理恰恰是借助“联想”来理解不同信息单元之间的连接关系和相似性,并进而构成具有复杂因果关系、内容丰富的意义网络。
具体而言,超链接这种信息组织方式将信息单元按照相互之间的内在联系组织成一个有机统一体,表现为网状的非线性结构。其中每个信息单元、片段或组合称为节点(Nodes),每个节点以网页的形式显示,可以是文字、图形、图像、声音、动画等单一媒体或者多媒体;每个网页又以文件的形式存放。节点与节点之间采用链路(Links)连接起来形成非线性的网络(Network)以表示相互之间的关系。超链接具有多样化的目标和形式[9],包括:
知识性链接。主要是信息内容,例如词汇、符号代码、段落或文献与相关知识组织体系,例如词汇表、叙词表、分类表等的链接。通过链接可以解释有关信息内容,按知识组织体系组合及显示相关信息内容,或者进一步支持利用知识组织体系的映射。
参考文献链接(Crossref)。主要指文摘索引与它们所标引的文献,文献与文后参考文献所指向的全文文献之间的链接。这种链接目前已成为各个文摘索引和全文期刊出版系统的标准功能之一,并逐步走向跨出版社、跨系统并可进行本地控制的开放式链接机制。
引用系统链接。主要链接引用目标文献的文献、被目标文献引用的文献、同被引文献、引文耦合文献等。这类系统往往融合参考文献链接功能,但能进一步通过引文关系分析来链接相关文献,可按照引用程度来过滤这些文献(例如确认被引次数高的权威文献和引用文献多的枢纽文献),还可对引用链接实行动态更新,从而形成一个以文献为中心的不断更新的相关信息集合。
语义链接。主要利用语义网络和概念集合等,将信息内容与那些虽然没有直接语言关系或引文关系,但是有一定逻辑联系的信息内容连接起来。语义链接需要知识组织体系和逻辑推理的支持,往往体现为虚拟的动态链接。
重组性链接。其重点不在具体文献的检索,而是对一批信息内容按照特定体系重新组织,而这个体系可能是动态定义和个性化的。例如个性化资源系统按不同分类体系或同一分类体系的不同层面组织资源体系;按主题分类组织检索结果;定期从其他电子期刊中选择符合一定主题的文章在逻辑上组成一个新的虚拟期刊[10];根据用户阅读对象动态连接相关文章组成智能化期刊,并用视图方式显示这些文章及其相关强度[11]等。
值得注意的是超链接与传统索引法之间的相似性[12]:两者都有标目项、信息实体以及它们之间的联系中介。区别在于索引法在标目项与信息实体之间的联系中介是出处项,而超级链接从逻辑层次上没有这一项,但在物理层次上计算机是依靠文件的存储地址实现信息实体定位的。因此有人认为超链接是索引法在多媒体和网络信息组织中的具体运用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。