2.1.2 信息资源分类的方法
1.概述
在我国信息化建设的起步阶段,当时的国家标准局信息分类编码研究所首次出版了由创立我国信息分类编码理论的专家编译的前苏联的《技术经济信息分类编码统一系统》一书,编写了指导信息分类编码在我国应用的《信息分类编码标准化》一书。系统、全面地介绍了信息分类编码的基本方法,为我国信息化建设的有序发展发挥了重要作用。至今,这些方法论仍然是使用分类法对信息资源进行组织的基本方法。随着计算机和网络技术的发展,人们对信息的认识不断深入,信息资源的分类法在原来信息分类编码基本方法的基础上得到了扩展。从原来的一维信息资源分类扩展到多维信息资源分类。
2.分类法
《信息分类编码标准化》一书指出:信息分类是在一定范围内,为了某种目的,以一定的分类原则和方法为指导,按照信息的内容、性质及管理者的使用要求等,将信息按一定的结构体系,分门别类地组织起来。使得每种信息在一定的分类体系中,都有一个适当的位置和相应的类号(代码)。同时,把相同内容、相同性质的以及要求统一管理的信息集中在一起,而把内容,性质相异以及需要分别管理的信息区分开来,使其成为一个有条有理的系统。
信息的分类是以科学分类(学科分类)为基础和依据的。纯科学分类是以其自然属性和客观规律而划分的。是人们可共同遵守的一致规律和准则。因此,任何信息分类只有以科学分类为依据,才能取得一定范围内的共同认可和统一。但是,信息分类又不能完全等同于学科分类。这是因为其在很大程度上要依赖于人们对信息管理的需求。
《信息组织》一书扩展了信息的定义,把信息称为信息资源,针对目前信息技术的发展,给出了信息分类的定义。所谓分类,是指依据事物的属性或特征进行区分和类聚,并将区分的结果按照一定的次序予以组织活动。分类是人类思维的基本形式,是认识世界的基本方法。一个完整的分类应包括两个方面:其一,依据事物的属性区分或组成,把具有相同属性或特征的事物集中在一起,不具有这些属性或特征的对象分开;其二,按照区分出来的对象集合的关系排序,并在这些类中进一步按其相同点和相异点进行区分和组织。
信息资源分类,是指根据信息资源的内容属性和其他特征,将信息资源分门别类地、系统地组织和揭示的方法。
信息资源的分类是一种从主题内容角度组织和揭示信息资源的方法,是分类方法在信息资源组织中的应用。
《信息组织》一书按照其编制方式,将信息资源分类方法归结为等级列举式、分面组配式、列举组配式三种。
1)等级列举式分类法(线分类法)
这是一种将所有的类目组织成一个等级系统,并且采用尽量列举的方式编制的分类法,亦称列举式分类法、枚举式分类法。这种分类法通常将类目体系组织成一个树状结构,按照划分的层次,逐级列出详尽的专指类目。由于这种分类法通常是依据传统的知识分类体系编制的,人们习惯上也将其称为体系分类法。
例1 04 物理学。
041 理论物理学。
042 声学。
043 光学。
044 电磁学、电动力学。
O441 电磁学。
O442 电学。
O443 磁学。
等级列举式分类法的特点是:
(1)分类结构显示直观、易于把握、便于使用。
(2)类目体系展开比较系统,并可以根据实际使用需要对类目的等级进行适当调整。
(3)标记简明,适于分类和用于组织分类检索工具目录。
列举式分类的不足是:
(1)揭示专门主题能力差,往往无法满足确切分类的需要,不能充分揭示信息资源中大量存在的细小专深主题。
(2)类表具有一定的凝固性,不便于根据需要随时改变、调整检索,不能进行多角度检索。
(3)无法根据现代科学的发展自动生成新类,难以与科学的发展保持同步。
(4)大型列举类表篇幅较大,对类表管理的要求较高。
例2 GB/T 4754—2002《国民经济行业分类与代码》,采用线分类法和分层次编码方法,将经济活动划分为门类、大类、中类和小类四种,见图2-1。
图2-1 线分类法的分层次编码
其中,将经济部门按其对象分为:农林牧渔业。
制造业。
交通运输、仓储、邮政。
批发和零售业。
金融业。
科学研究、技术服务业。
服务业。
公共管理和社会组织。
信息传输、计算机服务和软件业。
教育。等基本门类,并按照一定的顺序加以排列。
线分类法的分层次编码(层次码)按分类对象的从属、层次关系为排列顺序(类目之间存在隶属关系)。编码时,将代码分成若干层级,并与分类对象的分类层级相对应。每个层级的代码采用顺序码。层次码的优点是能明确地表明分类对象的类别,代码本身有严格的隶属关系,各层代码在分类上有一定的含义。缺点是弹性较差,对个别分类改变、删除时可能影响其他代码。先分类后编码的方法导致必须制定一定的分类规范和说明。
线分类的特点是用分类层级的数量、深度、容量和柔性来表示。层级的数量决定了分类深度。深度又与具体的集合层级解答具体课题所必需的属性数量有关。分类的容量与分类的深度和每一层级的集合数量有关。通常给定的集合可以分成下阶层集合的最大数,定为固定数,对于整个分类和层数皆然,一般是“10”或者是10的倍数。
线分类最主要的优点是它有较多的信息容量,属于传统的习惯方法,对于手工处理信息有较好的适应性,对分类对象进行编码时,有可能建立记忆代码。
线分类最主要的缺点是它的结构柔性差。这是由于固定了划分基准和预先安排好了排列顺序造成的,因而没有后备位置可供新的分类集合和属性插入。即使要修改一个属性,也要使许多分类集合重新进行排列。因此,用线分类法组建分类目录时,应该预先考虑到有足够多的后备容量。此外,这种分类方法不允许聚合对象,不允许任意按照属性组配的方式实现信息检索。
2)分面组配式分类法(面分类法)
这是一种依据分析兼综合的原则编制的分类法类型。这种分类法放弃详尽列举类目体系的做法,代之以简单概念组成复合类目的方式。其基本思想是:任何复合主题,不管它多么复杂,都可以分解为相应的基本概念,通过相应基本概念的组合加以表达。根据这一特点,分类法编制时,不必详尽列举所有主题,只需要在类表中按照范畴列出各种基本概念,并分别配予相应号码;使用时,先分析对象的主题,根据主题分析的结果,通过相应概念类目的组配表达主题内容,以这些类目的标识的组合,表示该主题在分类体系中的次序。
例3 在美术类中,可根据美术作品标引涉及的特征,分解成以下分面,设类如下(见表2-1):
表2-1
从上表可以看出,类表中没有具体的主题,只按照范畴设置基本概念。使用时,首先分析对象的内容特征,然后利用表中概念进行组配。
分面分类法的特点是:
(1)标引专指,可以通过基本概念的组配,充分揭示信息资源中的复合主题。
(2)标记表达性强,便于根据不同需要,调整组配次序,进行多元检索,例如:可以将上述标记轮排,提供从不同角度检索。
(3)对科学发展的适应性强,可以通过组配方式,表达新产生的复杂主题,有利于与科学的发展保持同步。
(4)类表的篇幅较少,便于管理、增补、修订等。
分面分类法的不足是:
(1)分面类表的类目体系是隐含的,直观性不如等级列举式分类法。
(2)检索工具中的类目是根据配组建立的,类目的分布往往不够平衡。
(3)标引难度较高,要求分类人员有较高的专业素养。
(4)分面标记的成分一般比较复杂,代码冗长,主要用于组织检索工具。
例4 北约军用物资代码采用面分类法,它是由三个相互独立的“面”组成的,“面”之间没有隶属关系,可独立使用。“面”与“面”组合使用时,其相对位置固定,组合顺序自后向前,不得以跨越方式组合,见图2-2。
军用物资代码包括分类和标识,为13位的数字复合码。
第一面:军用物资分类代码,包括大类和小类,各2位,代码长度为4位。
第二面:编目国别代码,代码长度为2位。
第三面:物品识别编码,顺序号(无含义),采用数字型代码,代码长度为7位。与国别代码联合使用,唯一标识。
图2-2 面分类法
3)列举-组配式分类法(混合分类法)。这种分类法是上述两种编制方式的结合,是一种在详尽类表的基础上,广泛采用各种组配方式的分类法,亦称线面组合分类法。这种分类法以列举式类表为基础,具有一定的直观性,同时广泛采用组配方式。但其列举式类表的管理修订工作,需要较大的工作量;类目之间的组配往往使用多种辅助符号,标记复杂、冗长。
4)网络分类法。网络和计算机技术的发展,改变了传统分类法的处理对象和手段,网络分类法就是在这一环境下发展起来的一种新型的分类工具。它以网络中常见的信息资源为对象,按照便利终端用户使用的方式确定类目,组织成逐级展开的等级系统,与对应信息资源链接。
分类搜索引擎作为网络环境的产物,是根据网络环境下的特点和需求编制的。类目设置适合网络资源的需求,采用多维结构,超文本链接,便于从多个角度设置类目,多维展开,方便用户对信息的查找,提供了从不同角度检索的可能。以大类设置为例,在类目设置上突出了用户感兴趣的类目,超文本技术可通过结点之间的链接,以非线性的方式充分揭示和表达信息之间的联系。利用链接的特点,通过在相应类下重复反映,使其同时成为有关类目的组成部分。从不同的属性、角度提供从多个维度揭示信息资源的方法。
分类法在网络中的应用目前只是开始,应从数字技术的角度重新审视原有的信息资源组织的理论、方法分析新技术的特点和规律,研究电子环境下分类结构中整体的控制问题。
例5 “雅虎中国”按产品和服务划分的企业目录搜索。
电子产品(大类)
电脑(中类)
硬性,网络产品,软件……(小类)
电子通讯(中类)
通讯设备,电信服务(小类)
五金电器(中类)
五金工具,仪器仪表(小类)
制造加工(大类)
农副产品(中类)
食品与饮料(中类)
调味品,食品加工机械……(小类)
制造与加工(中类)
工厂自动化,服装加工……(小类)
商业用品(大类)
办公与文教用品(中类)
展览与展示用品,乐器……(小类)
印刷与出版(中类)
包装,书籍……
礼品与工艺品(中类)
古董与收藏,雕塑,花卉与盆景……(小类)
家居用品(大类)
家居消费品(中类)
化妆品,布艺与摆设,厨具……(小类)
家用电器(中类)
小家电,家电维修,电子产品……(小类)
纺织与服装(中类)
建筑与装饰(中类)
房地产(中类)
房地产开发,服务……(小类)
娱乐休闲(大类)
娱乐与音像制品(中类)
旅游与交通(中类)
交通工具,安全器材……(小类)
医药化工(大类)
化工产品(中类)
环保设备(中类)
废料处理,水土保持……(小类)
类目体系是按大类、中类、小类等级逐级展开的浏览系统。设有11个基本大类,是根据网络中信息资源的内容分布情况直接按事物对象设置的通用性的大类结构。
机械及工业制品
农林牧渔
电子电工
电脑互联网
建筑房产
化工
医药保健
汽车、摩托
家居用品
服装鞋帽
食品、饮料、饮酒
矿产冶金
礼品、工艺品
包装、纸
安全、防护、保安
纺织、皮革、印染
办公、文教
仪器、仪表
商业服务
印刷、出版、媒体
运动、休闲
社会服务
广告、策划、传播
金融投资
能源动力
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。