信息检索可视化研究
周 宁
(武汉大学信息管理学院,武汉,430072)
【摘 要】信息可视化是信息资源管理的热点研究课题之一。它在信息检索(IR)与信息提供、超文本和WWW、数字图书馆(DL)和人机交互(HCI)、数据仓库(DW)与数据挖掘(DM)、以及知识管理(KM)等领域得到迅速发展与应用。10多年的实践证明它已成为一个跨学科、影响深远的研究领域。本文综述了信息可视化的研究进展。信息可视化包括信息资源描述的可视化、信息检索的可视化和信息提供的可视化。信息可视化的中心是信息检索可视化(IRVis)。它的基础是信息描述与存储的可视化。IRVis的目标是检索结果提供的可视化、向用户提供高质量的服务。文章研究了信息可视化的发展方向,对可视化结构与技术的演变进行了探讨。
【关键词】信息可视化 信息检索 信息描述与存储 信息提供可视化
The Research on Information
Retrieval Visualization
Zhou Ning
(School of Information Management,Wuhan University,P.R.China,430072)
【Abstract】Information visualization(IV)is a distinctive researchfield in which more and more people who engaged in information resourcesmanagement take interest.IV can be applied to many domains,such as information retrieval(IR),information access,hyper text,WWW,digital library(DL),human-computer interaction(HCI),data warehousing(DW),data mining(DM),knowledge management(KM),etc.It combined several academic disciplines and proved influential in practice during more than ten-year development.This paper gives a broad overview of IV research.There are three parts of IV:visualization for information resources description,visualization for information retrieval(IRVis)and visualization for information access.The center of IV is IRVis which based on both visualization for description and visualization for store.The aimof IRVis is information access visually which provides high-quality services to users.This paper suggests the developing trends of IV and discusses the evolvement of visualization structures and techniques.
【Keywords】information visualization information retrieval information description and storage information privide visualization
1 引 言
1987年,美国计算机成像专业委员会向国家科学基金会(NSF)提交了一份报告,题目为“Visulization in Scientific Computing”,它把科学计算可视化推向了前台。1989年,Robertson,Card和Mackinglay在其发表的论文《用于交互性用户界面的认知协处理器》中,正式提出了“信息可视化”(information visualization)的概念。十多年来,信息可视化的研究和应用已成为信息管理与知识管理的热点研究课题之一。那么,究竟什么是信息可视化?为什么要研究信息可视化技术呢?
1.1 什么是信息可视化?
所谓信息可视化(Information Visualization,缩写为InfoVis或IV)就是利用计算机支撑的、交互的、对抽象数据的可视表示,来增强人们对这些抽象信息的认知[1]。可视化是这样一个过程,它将信息转化为一种视觉形式,充分利用人们对可视模式快速识别的自然能力去进行观测、浏览、判别和理解信息。在这个过程中,人们利用计算机系统从屏幕上观察交互图形、图像并通过可视模型处理信息。图1给出了信息可视化的一个参考模型。
图1 信息可视化参考模型
为了进一步理解信息可视化的涵义,我们首先来讨论数据、信息与知识间的关系。
1.2 数据、信息与知识
数据(data)是事实、概念或指令的一种形式化的表示形式[2],适合于用人工或自然方式进行通信、解释或处理。它是离散的、互不关联的客观事实,孤立的文字、数值和符号,缺乏关联和目的性。
信息是数据所表达的客观事实。人们对数据进行系统组织、整理和分析,使其具有相关性。数据是信息的载体,信息是数据的内容。信息和数据在有些情况下不能严格区分。信息作为一种特殊的产品,它有一系列属性,具体表现在时间、空间和形式三个维度上(如图2所示)。
图2 信息的三个维度
数据、信息和知识的关联性十分密切(如图3所示)。数据是信息的载体,信息是数据的内涵,知识是由信息加工和提炼而成的结晶。可视化就是把数据、信息和知识转化为可视的表示形式的过程[3]。实际上,我们在这里讨论信息可视化就自然地包含了数据可视化和知识点(knowledge unit)的可视化。
1.3 信息可视化的过程
信息可视化的过程就是从信息维映射到可视维的过程。一般来说,通用信息的可视化可分四个步骤:抽取、转换、映射(定义)、隐喻。以文本信息对象为例,下面讨论其可视化的过程。
图3 数据、信息、知识间的关系
抽取:从文本信息对象中抽取外部特征和内容特征,建立专用数据表,为其可视化打好基础,准备原材料。
转换:从文本对象中抽取的特征(属性)为高信息维,如何过渡到低可视维?先要进行必要的转换。
映射(定义):通过分析研究,要确定特定算法,启动程序可以将高信息维向低可视维自动映射。
隐喻:合适的可视化模型可以隐喻文本对象的高信息维的值,并将信息处理中的认知负担转变为感知任务,从而使用户能很快理解信息并发现规律,正确地解释信息、掌握和应用规律,提高认知水平和洞察力。
1.4 为什么要研究可视化
当今信息时代,人们常用“信息爆炸”来形容信息量猛增的特征与趋势。如何来处理和应用这浩如烟海的信息呢?需要用先进的处理方法和有效的工具,而信息可视化就是将信息转换成二维和三维图形、图像、动画形式的技术方法和有效工具。用户通过这些可视形式进行观察、交互。例如,气象台的气象工作者,通过各气象站(点)和气象卫星上采集的大量信息,通过可视化处理,输出二维气象图和三维动画,直观地观察到当前的气象情况及发展趋势。又如,我们从计算机中调出某种股票的交易信息,通过K线图可清晰地看到该股票的运行情况及其走势。因此提高信息产品的质量、追求更高的经济效益与社会效益是信息可视化研究的主要动力。
2 信息可视化研究的进展
2.1 国内外的研究进展
信息可视化研究被国际上列为热点研究课题是在20世纪90年代中期,以两个系列的国际研讨会为重要标志。一个是从1995年开始,每年10月在美国召开的IEEESymposiumon Information Visualization(见表1)。2005年10月已在明尼阿波利斯召开了第11届信息可视化国际学术研讨会。电气和电子工程师学会(IEEE)还成立了信息可视化组织,出版了一系列会议论文集:InfoVis’95、InfoVis’96……、InfoVis2003、InfoVis2004、InfoVis2005,并创办了刊物Information Visualization(IV)。
表1 IEEE的一个系列的信息可视化(InfoVis)国际研讨会
与此同时,从1997年开始,IEEE每年7月在英国伦敦召开信息可视化国际研讨会(IEEE International Conference on Information Visualization),并出版了一系列会议论文集:IV’97、IV’98……IV’2003、IV’2004、IV’2005。
信息可视化研讨会的研究主题一直都很丰富,前后涉及约30个主题。如表2所示,从表中可以看出,研讨会的主题主要涉及三个大的方面:
(1)传统意义的信息可视化研究,包括技术、系统和模型等,一直都是主要议题。
表2 信息可视化(IV)研讨会主题
(2)可视化的表现技术研究,最早研究用普通的图形、图像技术表现可视化结果(如表2的2-1主题);图形图像领域的新技术被及时地引入到信息可视化,如虚拟现实、多媒体、动画技术等;近两年交互技术更受到关注,图论中的“图”与“树”的使用从数据结构的组织扩展到对结果表现的应用,它主要是用来实现语义网络的表现。语义网络表现的关键是节点之间的逻辑关系,随着高维信息可视化的研究而受到关注。
(3)信息可视化在各个领域的应用,这种应用更具有拓展新的可视化分支的目的。与专题会不同,尽管二者讨论的都是信息可视化在商业上的应用,专题会以现有可视化技术为主题,将商业信息源加以转换,使它们可以用可视化技术进行分析处理。而研讨会着重于建立新的商业信息可视化模型,突出可视化在商业领域的新特点,需要改变的是可视化技术,如构造新算法或改变实现流程等。
从表中可以看到,一直受到重视的主题有3-1至3-4;最近几年开始兴起的主题有3-11到3-18,其中与知识有关的议题占有大部分比例;而其他题目逐渐退出研究者的视野。
欧美的这两个系列国际学术研讨会已形成了一种气候,它不断将理论研究与实际应用推向新的高度。
欧美国家的可视化研究已取得了一批具有领先地位的成果。在理论研究方面比较注重可视化模型方法,在应用领域不仅出现了一批原型系统,而且有一些系统早已投入了实际应用。例如,加利福尼亚大学贝克莱(Berkeley)分校图书馆已将一个可视化子系统投入了实际应用。该分校图书馆利用Tilebar图形描述和检索信息资源。由于其操作形象、直观、管理效率高,因而深受广大用户的欢迎。
亚洲地区以日本较为典型。近几年来,日本不仅成立了可视化学会(The Visualization Society of Japan)[4],而且出版了可视化杂志(Journal of Visualization)和可视化手册,创建了可视化数据库(Visual Database),并多次举办了可视化国际学术研讨会。从有关报道来看,日本不仅在可视化理论研究方面成绩显著,而且在应用研究方面也取得了不少成果。例如,日本爱知大学的学者土桥喜等人将可视化技术应用于文献数据库,开发了“文献问题构造可视化系统”。它使文献的描述与知识构成通过视觉图像表示出来,用户能够很容易把握文献的主要内容;而且由于揭示出了同一文献中概念用语之间以及不同文献中概念用语之间的复杂关系,检索者可以不断调整检索策略,扩展查询的思维,增强了与系统的交互性,提高了查全率与查准率。又如,东京理科大学信息可视化研究中心开发的一种用于网络知识发现的信息可视化和检索集成工具WIDAS(WWWInformation Discovery Assistant System)就是一项新的信息可视化研究成果。
我国科学计算可视化技术的研究和应用在20世纪90年代得到了发展。至今,在一些单项研究和应用方面,我国已取得了一些可喜的成果,地理信息的可视化和医学信息的可视化就是实例。随着“数字中国”、“数字长江”、“数字黄河”、“数字城市”等工程的进展,可视化技术已得到了初步应用。例如,“数字黄河”把黄河“装进”计算机,通过全球定位系统、地球信息系统、卫星遥感等现代化高科技手段采集信息,再利用光纤、微波、卫星等先进的传输手段实现信息的快速传递,采用可视化技术,将黄河在计算机上逼真地再现出来。从而实现了黄河信息管理的可视化、自动化。我国首例全数字化“可视人”已经诞生,我国成为第三个拥有本国可视化人体数据集的国家。在电脑屏幕上,“可视人”的肌肉、骨胳、神经和各种器官清晰逼真,动脉、静脉分呈红、蓝色,是一个真正意义的全数字化“可视人”。“可视人”不仅为医学发展提供了重要参考,同时,还可以广泛应用于航空航天、体育、汽车、建筑、机械制造及影视制作等相关行业。
目前,可视化技术在部分领域得到初步利用。在教育战线,远程教育、虚拟大学已开始采用可视化技术。但从整体来看,我国在可视化领域的研究与应用还处于起步阶段。研究是零星的、分散的,还没有形成气候。全国既没有一个可视化学会性质的组织,也没有一个全国性的学术交流的平台(如专题期刊、网站、学术年会等),更没有全国性的攻关计划、与国际组织合作研究计划和主办国际学术讨论会。
发达国家早已瞄准了数字资源的可视化技术。在理论模型和应用技术方面已有长足进展,在国民经济和社会发展中已见成效。我国在该领域的研究起步晚,与国外先进水平有相当大的差距。
2.2 可视化数据的种类及其应用
可视化作为一个学科分支起源于美国的国家科学基金会(NSF)发表的《科学计算中的可视化》报告。它把可视化作为能处理大型科学数据的有力工具,借以达到提高科学家观察数据现象,找出其规律性的认识的目的。因此,具有几何空间性质的信息,如分子结构、地球、人体等的可视化均基于这些物理数据。而对于不具有空间属性的抽象信息,可视化就更具有应用前景。“信息可视化”这个术语第一次出现在论文《用于交互性用户界面的认知协处理器》中之后,其研究和应用快速发展。信息可视化是从科学计算可视化发展来的,它结合了科学可视化、人机学科的理论方法和处理技术。因此,可视化数据的种类也是多种多样的。
2.2.1 科学计算的可视化
(1)科学计算可视化概述。
科学计算可视化是发达国家20世纪80年代后期提出并发展起来的一个新的研究领域。1987年2月,美国国家科学基金会在华盛顿召开了有关科学计算可视化的首次会议,与会者有来自计算机图形学、图像处理以及从事不同领域科学计算的专家。会议认为“将图形和图像技术应用于科学计算是一个全新的领域”,并指出“科学家们不仅需要分析由计算机得出的计算数据,而且需要了解在计算过程中数据的变化,而这些都需要借助于计算机图形学及图像处理技术”。会议将这一涉及多个学科的领域定名为“Visualization in Scientific Computing”,简称“Scientific Visualization”。
这次会议之后,美国、西欧、日本各著名大学、研究所、超级计算机中心、各大公司纷纷进行科学计算可视化理论和方法的研究,在重要的国际计算机图形学会议上发表论文,科学计算可视化成为近年来国际学术会议讨论的一个热点问题。自1995年开始,美国IEEE又增加了一种刊物“IEEE Transactions on Visualization and Computer Graphics”。与此同时,美国、德国的超级计算机中心、研究所及大公司着手开发用于科学计算可视化的软件系统,并形成商品推向市场。如美国Stardent计算机公司推出的AVS系统,美国俄亥俄超级计算机中心开发的apE系统,德国达姆斯达特FHG—AGD研究中心开发的VIS—A—VIS系统等。经过短短的十年,科学计算可视化理论和方法的研究已经在国际上蓬勃开展起来并开始走向应用。
(2)科学计算可视化的含义。
那么,什么是科学计算可视化呢?它指的是运用计算机图形学和图像处理技术,将科学计算过程及计算结果的数据转换为图形及图像在屏幕上显示出来并进行交互处理的理论、方法和技术。实际上,随着技术的发展,科学计算可视化的含义已经大大扩展。它不仅包括科学计算数据的可视化,而且包括工程计算数据的可视化,如有限元分析结果等,也包括测量数据的可视化,如用于医疗领域的计算机断层扫描(CT)数据及核磁共振(MRI)数据的可视化,就是最为活跃的研究领域之一。
科学计算可视化将图形生成技术、图像处理技术和人机交互技术结合在一起,其主要功能是从复杂的多维数据中产生图形,也可以分析和理解送入计算机的图像数据。它涉及计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等几个领域。
2.2.2 信息可视化的实现
从1995年以来,IEEE每年都举办信息可视化专题研讨会。会议讨论的内容非常广泛,主要围绕下面一些问题展开:交互信息可视化;多维信息可视化、信息描述、复杂信息可视化、对于不同观众的信息可视化、Internet和WWW可视化、浏览和导航方法、可视化算法、可视化和知识发现、地理信息可视化等。
国外研究机构在信息可视化领域的工作主要集中在以下几个方面:
层次信息方面,如cone tree,Hyperbolic Tree,Spiral Calendar,Disk Tree;
线性信息方面,如PerspectiveWall;
矩阵信息方面,如Table Lens;
时间信息方面,如Time Tube;
文档信息方面,如Document Lens;
信息工作空间方面,如Rooms,Information Visualizer。
下面通过几个例子介绍国外正在研究的热点。
(1)The Information Visualizer。
The Information Visualizer是Xerox Palo Alto研究中心的用户界面研究组在1991年开发的一个用于信息检索系统的用户界面实例。Visualizer是一个信息检索任务的工作空间,它采用了下列可视化技术:用锥形树(Cone Trees)显示层次信息;用透视墙(PerspectiveWalls)显示线性信息;用文档透镜(Document Lens)显示文件信息。
(2)Hyperbolic Browser(双曲浏览器)。
Hyperbolic Browser是Xerox Palo Alto研究中心的用户界面研究组1995年开发的一种基于上下文和焦点(Focus+Context)技术的可视化工具。这项技术给层次中的某一部分分配更多的显示空间,该部分可嵌入在整个上下文层次中。其关键在于,以一种统一的方式在双曲平面上排列层次,再把这个平面映射到一个圆形显示区域中。它支持上下文和焦点的平滑融合,以及焦点的连续变化。这项成果目前已经作为产品推向了市场。
(3)软件版本的可视化。
在1999年5月Eurographics和IEEE联合召开的可视化会议(VisSym'99)上,维也纳技术大学和芬兰诺基亚公司研究中心联合发表了一篇文章,题目是《应用信息可视化技术分析软件版本的开发历史》。该课题得到了欧洲共同体ESPRIT项目ARES的支持。该文介绍了他们应用信息可视化技术与远程通信系统软件开发历史数据库的情况。该软件用可视化工具软件3DsoftVis实现,包括了三部分:数据库、三维图形生成器及用户界面。数据库包括软件系统开发的历史数据;三维图形生成器将数据库中的数据转换为三维模型;用户界面向用户提供各种浏览。
在简单的信息可视化模型(图1)中,可视化可看做是从数据到可视化形式、到人的感知系统的映射。在该模型中要经历一系列变换:数据变换把原始数据(特殊格式的数据)映射为数据表(数据的相关性描述,包括元数据);可视化映射把数据表转换为可视化结构(标记和图形属性的结构),这是参考模型的核心;视图变换通过定义位置、缩放比例、裁剪等图形参数创建可视化结构的视图,常见的视图变换有位置探查、视点控制及变形。人机交互用来控制这些变换的参数,目前已有鱼眼、飞行浏览、相机移动、局部细化等各种交互技术。
科学可视化、信息(数据)可视化是可视化领域的两个重要分支,现在科学可视化和信息可视化的很多技术和方法也将不断融合。其相关领域主要包括:
人机界面视觉感知是人机界面最重要的组成部分,因此信息可视化本身就是人机界面的主要研究内容。图形用户界面需要向三维、多媒体方向发展;多通道用户界面应支持虚拟现实、多维信息可视化。
虚拟现实增强人们对非物理抽象信息的认知,是虚拟现实的一种重要应用,是探索未来、解释科学现象、寻找其规律的重要手段。
数据仓库强有力的信息可视化技术将是数据挖掘的重要工具,它可弥补数据仓库许多算法的不足。信息可视化的主要应用目标:发现、决策和解释,它们与数据仓库研究目标是一致的。
在未来的应用方面,信息可视化将进入用户界面和产品应用这一主流,会有一大批信息可视化的产品出现。尤其是大规模数据库、数据仓库、文档界面和基于Internet应用、服务的产品将会不断出现。
在实现技术方面,信息可视化将与信息可听化、触觉等表现形式结合,成为信息可感知化(Information Perceptualization)。
因特网是一个巨大的、无序的信息海洋,迫切需要各种有效的工具进行信息的浏览和查找,信息可视化工具无疑是极有前途的选择。在Internet海量信息网络中,WWW信息的可视化将使用户更方便地获取需要的信息并且不至于迷途,这是信息可视化的一个艰巨任务。
2.2.3 数据可视化的应用实例
2.2.3.1数字天气预报的可视化
气象信息的可视化是信息可视化的成功范例之一。我国气象工作者选择AVS/Express作为开发平台,结合国家气象中心的实际需求,针对业务和科研的发展,建立一套满足实际要求的系统[5]。采用三维可视化开发工具AVS/Express,在Windows平台上开发建立“气象模式数据三维可视化系统”,实现数据的三维及二维可视化,用图形、色彩和动画来表示数值预报的结果。
开发工具AVS/Express是一个面向对象的、可视化开发工具,它的核心就是面向对象技术,支持数据和方法在类中的封装;支持类的继承、模板和实例;支持对象的分层结构以及类的多态性等特性。利用它能够建立可重复使用的对象、应用程序组件以及数据可视化应用程序,通过对象或组件的灵活组合,定制数据的三维及二维可视化显示方式。
volume_render模块可以直接展示三维体数据。当可视化的方式被激活,它可以支持体积和几何学的混合显示。
在具体应用中,风场数据可视化过程就是其中一例。
在气象信息可视化系统中,风场数据包括经向(U)和纬向(V)两个方向的数据。首先,要对两个方向的数据进行矢量合成,合成由Combine vect模块完成,再按照合成后的数据绘制风的流场图,从而实现了气象产品的可视化。
2.2.3.2数字地球与地理信息的可视化
(1)数字地球与“3S”技术[6]。
因特网的普及与广泛应用不仅改变了人们的工作方式和生活方式,而且改变了人们的思维方式。偌大的地球变成了一个小小的地球村。信息化把有关地球的信息集成为一个数字地球。数字地球是一个复杂的系统,地球上发生的许多事件,变化和过程又十分复杂而呈非线性特征,时间和空间的跨度变化大小不等,差别很大,利用数据挖掘(Data Mining)技术,我们将能够更好地认识和分析所观测到的海量数据,从中找出规律性的认识和管理知识。
(2)“3S”可视化技术。
可视化是实现数字地球与人交互的窗口和工具,没有可视化技术,计算机中的一堆数字是无任何意义的。数字地球的一个显著的技术特点是虚拟现实技术。虚拟现实造型语言(VRML)是一种面向Web、面向对象的三维造型语言,而且它是一种解释性语言。它不仅支持数据和过程的三维表示,而且能使用户走进视听效果逼真的虚拟世界,从而实现数字地球的表示以及通过数字地球实现对各种地球现象的研究和人们的日常应用。建立了数字地球以后,用户戴上显示头盔,就可以看见地球从太空中出现,使用“用户界面”的开窗放大数字图像。
数字地球的核心是地球空间信息科学,地球空间信息科学的技术体系中最基础和基本的技术核心是“3S”技术及其集成。所谓“3S”是全球定位系统(GPS)、地理信息系统(GIS)和遥感(RS)的统称。没有“3S”技术的发展,现实变化中的地球是不可能以数字的方式进入计算机网络系统的。
全球定位系统(GPS)技术是一种全新的现代定位方法,已逐渐在越来越多的领域取代了常规光学和电子仪器。GPS卫星定位和导航技术与现代通信技术相结合,在空间定位技术方面引起了革命性的变化。用GPS同时测定三维坐标的方法将测绘定位技术从陆地和近海扩展到整个海洋和外层空间,从静态扩展到动态,从单点定位扩展到局部与广域差分,从事后处理扩展到实时(准实时)定位与导航,绝对和相对精度扩展到米级、厘米级乃至亚毫米级,从而大大拓宽它的应用范围和在各行各业中的作用。
遥感(RS)技术主要表现在它的多传感器、高分辨率和多时相特征。遥感信息的应用分析已从单一遥感资料向多时相、多数据源的融合与分析,从静态分析向动态监测过渡,从对资源与环境的定性调查向计算机辅助的定量自动制图过渡,从对各种现象的表面描述向软件分析和计量探索过渡。
地理信息系统(GIS)技术的发展一是基于Client/Server结构,二是通过互联网络发展Internet GIS或Web-GIS,可以实现远程寻找所需要的各种地理空间数据,包括图形和图像,而且可以进行各种地理空间分析。
(3)“3S”集成技术。
“3S”集成是指将上述三种对地观测新技术及其他相关技术有机地集成在一起。这里所说的集成,是英文Integration的中译文,是指一种有机的结合,在线的连接、实时的处理和系统的整体性。GPS、RS、GIS集成的方式可以在不同技术水平上实现,包括空基“3S”集成与地基“3S”集成。
空基“3S”集成:用空─地定位模式实现直接对地观测,主要目的是在无地面控制点(或有少量地面控制点)的情况下,实现航空航天遥感信息的直接对地定位、侦察、制导、测量等。
地基“3S”集成:车载、舰载定位导航和对地面目标的定位、跟踪、测量等实时作业。地理动态监测、资源调查、灾害预测和防治、环境保护等都需要利用数字地球。
2.2.3.3地质信息的可视化[7]
根据地质勘探所获取的数据进行数据转换,将矿产层的分布用可视化形式显现出来。油气勘探就是成功的范例之一。
多年前,人们就已经找到了许多大型油气田。目前石油工业面临的一个严峻问题是:如何寻找规模小而埋藏深的油气田。除了寻找新油田之外,新技术的出现还允许我们通过改善分析和回收方法,使现存油田处于最佳状态,并延长油田的产油寿命。科学家和工程技术人员必须先对大量的地震勘探数据进行精确的解释,然后才能确定油田是否存在,并确定对地下资源的开采管理方案。油气勘探的主要方式,是通过天然地震波或人工爆炸产生的声波在地质构造中的传播,来重构大范围内的地质构造,并通过测井数据了解局部区域的地层结构,探明油藏气藏位置及其分布,估计蕴藏量及其勘探价值。由于地震数据及测井数据的数据量极其庞大,而且分布不均匀,因而无法根据纸面上的数据作出分析。利用可视化技术可以从大量的地质勘探数据或测井数据中,构造出感兴趣的等值面、等值线,并显示其范围及走向,并用不同颜色显示出多种参数及其相互关系,从而使专业人员能对原始数据作出正确解释,得到矿藏是否存在、矿藏位置及储量大小等重要信息。这不仅可以指导打井作业、减少无效井位、节约资金,而且必将大大提高寻找油藏的效率,具有重大的经济效益及社会效益。英国的PGS Tigress有限公司开发了数据的可视化软件,已在全世界许多油田和天然气开发中得到广泛的应用。利用这种软件,可以进行地震数据处理、测井多井评估、模拟油气的储存和生产过程。不仅能确定油气储存的位置,而且可以跟踪油气的运动,便于确定开采油气的最优路径。我国大庆勘探开发研究院开发了地质数据可视化系统,可以全方位、方便灵活地对三维数据体中的断层、部面、层面及其内部所包含的数据类别、地质属性进行立体显示,具有面向对象的开发环境,能满足用户的各种数据可视化要求。
2.2.3.4医学信息的可视化[8]
长期以来人类就有认识自身内部结构的愿望。直到20世纪70年代计算机断层扫描(CT)和核磁共振图像(MRI)技术和可视化技术的出现,才使获取人体内部数据的愿望成为现实。为了实现这一目的,美国国家医学图书馆(NLM)于1989年开始实施可视化人体计划(VHP)。委托科罗拉多大学医学院建立起一男一女的全部解剖结构数据库。VHP数据集的出现,标志着计算机三维重构图像和虚拟现实技术进入了医学领域,从而大大促进了医学的发展和普及。
由于EBCT(电子束CT)血管造影图像时间分辨率高,消除了呼吸及运动伪影,可以明确诊断各种主动脉病变和显示冠状动脉搭桥血管解剖结构。三维重建图像利于整体直观地显示病变,帮助明确诊断并指导手术。从而可望在主动脉病变的诊断和冠状动脉搭桥术后的血管显示方面,取代有创的常规血管造影。
医学数据的可视化,已成为数据可视化领域中最为活跃的研究领域之一。由于近代非侵入诊断技术如CT、MRI和正电子放射断层扫描(PET)的发展,医生已经可以较易获得病人有关部位的一组二维断层图像。CT打破传统的胶片感光成像模式,通过计算机重构人体器官或组织的图像,使医学图像从二维走向三维,使人们从人体外部可以看到内部。利用可视化软件,对上述多种模态的图像进行图像融合,可以准确地确定病变体的空间位置、大小、几何形状以及它与周围生物组织之间的空间关系,从而及时高效地诊断疾病。美国加州的ADAC实验室,约翰·霍普金斯大学、焦点图形公司、集成医学图像处理系统公司以及德国柏林大学等,都采用可视化软件系统,将获得的二维断层图像,重构有关器官和组织的三维图像。他们开发出的软件已在许多医院得到应用。另外,美国华盛顿大学利用可视化软件系统和心脏超声诊断技术,可以获得心脏的三维图像,并用于监控心脏的形状、大小和运动,为综合诊断提供依据。电子束CT(EBCT)替代了X线管与检测器的机械扫描,扫描速度提高近百倍,检查运动的器官(如心脏大血管)能得到清晰的图像,实现了电影CT,是CT技术的一次革命。中国协和医科大学阜外心血管病医院已将EBCT三维图像重建用于主动脉病变的临床诊断和冠状动脉搭桥术(CABG)后的血管显示。
2.2.3.5网络信息的可视化
网络信息可视化是信息可视化的重要内容。网络信息可视化检索辅助系统WIDAS(WWWInformation Discovery Assistant System)是日本一项新的信息检索可视化研究成果,是东京理科大学信息可视化中心研究开发的一种用于网络知识发现的信息可视化和检索集成工具[9]。
WIDAS主要设计原理:网址的链接结构通过3D双曲线树来表示,树内每个节点(对应一个网页)的高度表示用户对该网页的“兴趣”。在这里兴趣是通过一个网页和一个用户提供的查询(嵌套的关键词)之间的匹配功能来计算的。这个方法可以用来过滤不感兴趣的网页,减少链接结构的规模。而且,每一个网页被模拟为半结构数据,可以以双曲线树形式显示,在该树中,查询评价的结果是可视的。WIDAS功能的实现过程是,首先通过信息检索部分计算网页和用户提出的查询之间的匹配度;然后可视化部分给出一个双曲线树,其中每个节点对应一个网页,每个节点的高度代表网页和查询的匹配度。匹配度低的网页可以被及时过滤掉,因此,只有感兴趣的网页结构以双曲线树的形式被显示出来。同时,模拟为半结构数据的每个网页也可以被表示为双曲线树,来显示网页与查询的匹配程度。实验研究表明,这些功能与浏览器结合可以实现交互式的信息检索,使用户更准确更有效地从一个庞大的网站中发现所需网页。
WIDAS的检索结果输出见图4。窗口分为文档结构显示区和查询与命令的输入区。每个文档都显示为一个节点,其高度代表查询匹配程度等信息。高度对于有效获取感兴趣文档能起到很好的指示作用。
图4 网络信息可视化的实例
2.2.3.6文本聚类的可视化
信息可视化是信息管理和信息系统的热点研究问题。随着网络技术的发展,充分有效地利用丰富的文本资源成为人们关注的焦点。文本聚类是处理文本的重要方法之一。
处理科技文献时采用的方法主要有引文分析、内容词分析、聚类分析、因素分析以及内容词分析与共引聚类分析相结合的方法[10]。这些方法同样适用于各种形式的文本信息,在近几年的若干研究热点中,聚类分析作为一种数据挖掘的重要手段,在文本挖掘中有着重要的作用。通过把文本变换成词向量来聚类的方法是重要的一类,它将词条标以不同的权重值,这样一篇文本就由词条的权重值组成的特征向量来表示,在此基础上开展各种文本聚类的研究。
(1)文本聚类。
对于一个聚类问题来说,必须解决两个主要的问题,一是如何将信息源表示成一种便于处理的形式同时尽可能准确反映信息源;二是采取何种算法或方法实现聚类。
在基于词统计的聚类方法中,首先要考虑的是将文本内容表示成适合统计分析的数学形式。Salton教授提出了一个向量空间模型(VSM)的表示方法,基本思想是对一个文档集事先规定好一个词序,其中的每一篇文章都将按照该顺序表示成高维空间中的一个向量。将规定好次序的词看成是向量空间的维,词的频率(TF)看成是向量在高维向量空间中某一维的取值。这样一篇文章就被表示成高维空间中的一个向量了,便于利用各种数学工具对其进行处理。
由于文本聚类重要的是对文本内容的聚类。然而,词频向量集合并不能完全、准确地反映文本的语义,因此,改善传统文本聚类性能的一个途径就是让用户根据文本的概念主题或语义来进行文本聚类。为了克服传统文本聚类时基于词频向量匹配带来的局限性,人们提出了各种改进方法。主要是在绝对频率上进行加权,如相对频率(relative termfrequency,RTF)加权法、反文献频率(inverse document frequency,IDF)加权法、信噪比加权法、词区分值(termdiscrimination value)加权法等[11]。
利用隐含语义分析(Latent Semantic Analyze,LSA)从又一个角度考虑,文本集中存在着隐含的关于词条使用的语义结构,这种语义部分地被文档中词的语义和形式上的多样性所掩盖而不明显。LSA通过对文本集的词条矩阵的奇异值分解计算,并取前若干最大的奇异值及其对应的奇异矢量构成一个新矩阵来近似表示原文本集的词条矩阵。由于新矩阵消减了词和文本之间语义关系的模糊度,从而提高了文本聚类的精度。
在聚类算法上,从20世纪40年代至今,国内外的研究者提出了很多聚类算法,如基于层次的算法、基于平面分割的算法、基于密度的算法、基于规则和模型的算法以及基于网格和子空间的算法[12,13,14,15,16]。
层次聚类法把类别看做是有层次的,即随着类别层次的变化,类别中的对象也相应发生变化,层次聚类结果形成一棵类别树;分割聚类算法将数据集分成若干子集,由于搜索全部可能子集空间在计算上是不可能的,因此往往采用一定迭代优化的启发式方法。与层次聚类不同的是这类算法反复调整聚类结果来进行聚类优化。典型的算法有K-means;基于密度的聚类算法可以发现任意形状的类别,同时此算法对噪声有自然的抵制作用;基于网格的聚类算法把对于数据的分割转换成对于空间的分割,但是空间分割则是基于输入数据累加的空间小超立方体(网格)的,该算法兼有基于密度算法和基于网格算法的双重特性。在这些众多的算法中,大多需要事先人为地给出一些参数,在没有先验知识的情况下,人为地确定这些参数是十分困难的。这样一来算法时空效率主要耗费在聚类的判断过程中。
本文给出了一个实现文本聚类的新视角和方法。任何一个信息系统都是一个人机系统。它解决一个问题的全部任务可以合理地分解给机器和人各做一部分,形成总体上的最佳效果。人的直觉判断有着目前机器不可比的能力(如判断孤立点),但此能力仅限于低维空间。高维空间聚类人的直觉无法发挥作用,而目前机器在该方面的效率也很低,尤其是对模糊的现象。本文采用一种高维空间到低维空间映射的方法,保持数据集在两个空间结构关系的一致性,将文本集投影到二维空间,形成一个信息可视化的结果,从而发挥人的智能优势,完成文本聚类。
(2)基于多元尺度分析的信息可视化。
信息可视化,就是利用计算机支撑的、交互的、对抽象数据的可视表示,来增强人们对这些抽象信息的认知;是研究人、计算机表示的信息以及他们相互影响的技术;是人和信息之间的一种可视化界面,是人机交互技术的重要组成部分。
由于信息应用领域的复杂性以及用户需求的多样性,人们研究开发了形式各异的可视化技术。这些技术在外貌上看起来千差万别,不同的研究者从不同的角度给出了一些总科学的分类。基于多维数据投影(Multidimensional Data Projection)的可视化方法正越来越广泛地成为很多领域使用的工具,如决策支持、金融分析、信息和知识管理等。多元尺度分析(MDS)是其中一种常用的方法,非常适合用来解决聚类问题的可视化。在解决电子商务的信息组织时,实现了一个用该技术处理的网页聚集类问题[17]。
3 信息检索可视化的研究内容
3.1 信息资源描述的可视化
我国的信息资源可视化主要包括汉字文本信息的可视化、汉语语音信息的可视化和视频信息的知识化、可视化[18](其可视化过程如图5所示)。图中指出了三个分支汇聚一处。一个分支是直接对文本信息资源可视化,第二个分支是将汉语语音信息转换为汉字文本信息来研究,第三个分支是先在视频信息(图像对象)资源特征库和相关知识库的基础上建立索引,然后对其可视化。
这样,图、文、声信息不仅要建立图像数据库、语音对象数据库和文献数据库,而且要建立相应的图符库、关键词库、标题词库、自由词库和各种特征数据库。在此基础上,还要建立相应的索引库。
信息资源可视化模式由反映资源内容特征的图符、高维空间描述图、特征库、知识组织体系和相应的数据压缩格式构成。
图5 信息资源可视化的一般过程
3.2 信息检索的可视化
对于用户来说,能否方便地实现检索式的构造、准确地表达出自己的检索需求,对于能否检索到相关的结果文档非常重要。检索式可视化的意图在于利用检索词的语义扩展技术(语义蕴含扩展、语义外延扩展、语义相关扩展等)及可视化技术揭示出概念间的关系及相关的检索词,以便用户能更准确地表达检索需求。可视化技术则一方面要能可视化显示用户的检索历史,另一方面要能根据词间关系用节点与连线方式将概念及概念间的关系揭示出来。
AQUA是一个实现检索式构造可视化的检索系统,提供了一组面板来处理可视化用户的检索式优化过程,实现检索式构造的可视化。用户从面板中就可以看到整个检索式的构造过程及每个检索式所返回的检索结果,用户可以根据前一次检索的结果来修改检索式。AQUA目前后台使用的数据为NCSTRL(Networked Computer Science Technical Reports Library)与ETRDL(ERCIMTechnical Ref-erence Digital Library)。
另外一个支持检索式构造可视化的工具为Multisurf,它已作为许多本地或全球的信息浏览工具的界面。Mosaic2.6已对它加以修改,支持“查询即链接”(Query are Link,QRL)的浏览风格。该界面改变了传统的以检索输入框作为检索需求的表达方式,它并不是打开一个表单让用户输入,用户只需拖拉、选择关键词,并在已选择的关键词间画连线来构造“逻辑与”查询,而结果文档则显示在Mosaic浏览器窗口中。
检索式可视化除了能可视揭示出词汇间的关系及用户的检索历史外,还应该能够动态的将检索结果及时、连续、可视化地反馈给用户。
3.3 信息检索结果提供的可视化
信息提供服务是根据用户的某一客观信息需求,有选择地从信息源中搜集信息,经过一定的加工、处理程序,向用户提供一定范围内的信息及信息获取工具,以供用户选择、使用的一种基本的服务业务。信息提供服务旨在针对用户的特定需求为其提供可资利用的各种信息和信息获取与查询工具。信息提供服务的基本类型可以分为文献信息的提供(原始文献信息提供、文献查询提供)和非文献信息提供(物化信息提供、交往信息提供)[19]。
信息提供应以方便用户的使用为前提,提供方式和服务只有为用户所接受,才能得到应用。在传统的文献信息服务中,信息提供服务对于信息内容加工程度较低,留给用户的负担过重。而信息可视化技术的出现在某种程度上改变了这个局面。信息可视化技术的目的是“给信息以形象”,让信息以视觉化的方式表示。可视化技术对提供信息的内容作深入分析,通过对原始文献或者检索结果作可视化处理,刺激用户的感知功能,从而达到提高认知水平的目的。
3.3.1 原始信息提供的可视化
原始信息是针对信息检索而言的,即没有收录在信息检索系统中的信息。原始信息包括信息资源的各种类型,如文本、图像、图形、声频、视频、动画等。原始信息提供的可视化即对原始信息本身的可视化。这里从信息资源的特征出发,研究原始信息可视化的问题。
(1)一维信息可视化。
一维信息是简单的线性信息,如文本、程序源代码等。一维信息可视化的有用性依赖于信息量的大小以及用户企图根据源信息完成的工作。
文本是最常见的一维信息。高维空间描述法是描述文本信息的基本方法之一[20],它以关键词(或主题词)为基础。对于包含有N篇文献的集合,从N篇文献中共抽取出m个不同的关键词,那么对于集合中任意一篇文献,都可以用一个m维矢量V=(V1,V2……Vm)表示,分量V1,V2……Vm的值与该词的出现频率和分布有关,通常出现在标题、子标题和摘要中的词对于表示文献的重要性比较大,相应的权重也比较大。在m维空间中,每篇文献都可以用一个点表示。根据空间点的分布状况,可以产生聚簇现象,彼此靠近的点,其代表的文献也彼此相关。
由于我们很难想象超过三维的空间,需要将高维空间转换为低维空间。这种转换方法有很多种,包括Spring-embeder,Linear Programming等。图6描述了高维空间信息可视化的过程。
(2)二维信息可视化。
在信息可视化环境中,二维信息指包括两个主要属性的信息。例如,宽度和高度可以描述事物的大小,事物在X轴和Y轴的位置表示了它在空间的定位。
地理信息系统(GIS)属于二维信息可视化,商业GIS被用于区域规划,交通规划和管理,天气预报以及绘图。健康和普查数据通常也用可视化表达,比如在地图上用点的不同密集程度表示出该地区的人口密度,或者用不同的颜色表示不同地区的某种特征。二维信息可视化的一个最常见的例子是股票走势图,用横坐标表示时间,纵坐标表示股价的高低,简洁明了地表达出复杂的信息内容。
图6 高维空间信息可视化方法
(3)三维信息可视化。
近年来,三维信息可视化被广泛地应用于建筑和医学领域。我国“863”高技术发展研究课题“数字化虚拟中国人数据集构建与海量数据系统”的目的就是用计算机在三维空间模拟真实人体的所有特征。建成的数据库可以根据具体的某个人进行调整,形成个案。医生可以通过对虚拟病人的研究与演练确定对真实的病人该如何治疗。
(4)多维信息可视化。
多维信息指信息可视化环境中具有超过3个属性的信息,这些属性的重要性是相当的。例如,关于某地所有房屋的价值和它们的地址的数据的一个清单(一维),可以按照价值排序;也可以创建一个测度,用点的大小来表示房子的相对价值,并且将点放置在地图上表示它们的位置(二维)。但是,如果有一个数据库,它包括了房子的一系列属性,使得用户可以根据任何一个房屋属性来给房子排序,这就是多维数据。
对于多维信息可视化最终还是在二维或者三维空间实现。一方面是现有的技术还不能直接表示多维信息,另一方面由于人们很难想象多维空间,习惯于三维、二维空间。那么对于多维信息的可视化,如何降低维度是关键问题,在降低维度时如何确保信息失真最小是衡量各种降维方法的尺度。
(5)时间序列信息可视化。
有些信息自身具有时间属性,可以称为时间序列信息。根据时间顺序图形化显示事物是一种普遍使用的、很有效的信息可视化方法。马里兰大学开发的LifeLines系统就是具有时间线功能的系统,下面是LifeLines在医学领域内的一个应用实例。患者的全部医疗记录被输入数据库,软件按照时间线提供了关于患者病史的一个全局性的视图。患者的全部医疗记录中的事件、特征、关系等被按钮、水平线、颜色以及线的粗细表示出来。试验表明,与传统的列表描述相比,用户对于LifeLines表示出的信息更加容易理解和记忆。
(6)层次信息可视化。
层次关系也称为等级关系。传统的描述层次信息的方法就是将其组织成一个类似于树的节点连接表示。这种表示结构简单直观,但对于大型的层次结构,树形结构的分支很快就会拥挤交织在一起,变得混乱不堪。主要是层次结构在横向(每层节点的个数)和纵向(层次结构的层数)扩展的不成比例造成的。
关于层次信息可视化的研究目前大多数集中在如何寻求高效简洁的层次信息可视化结构方面。在层次信息的表现上,具有明显的认知心理学特征。除了加强用户的可用性测试实践外,如何利用计算机图形学等技术动态地表示层次信息仍然比较困难。
(7)网状信息可视化。
网状信息不仅包括网络上的信息,准确地讲,它是指这样的一个节点,与其他任意数量的节点之间有着联系。网状信息没有内在的等级结构,两个节点之间可以有多种联系,节点以及节点间的关系可以有多个属性。在网状信息可视化时,不仅包括信息节点本身所含信息内容的可视化,还要求信息节点之间联系的可视化。
3.3.2 信息检索结果提供的可视化
信息检索是信息服务中的重要组成部分。广义的信息检索包括了信息组织和信息检索。通常情况下,信息组织方式决定着信息检索的方式。比如在传统的信息组织中,如果用主题法组织信息资源,检索时只能从主题角度进行。
这里我们把信息检索分为两大类:数据库检索和网络检索。首先我们讨论检索结果的可视化问题。
检索结果的线性排序方式每次提供给用户的信息也非常有限,不利于检索结果的整体浏览。此外,在揭示关键词与文档的相关度、文档与文档之间的链接关系方面也不够直观。检索结果的呈现用以帮助用户从检索结果中取出信息,主要解决两方面的问题:显示的内容(显示什么)及显示的形式(如何显示)。
在检索结果中应该显示哪些内容已引起了许多研究者的兴趣,在相关文献[21,22,23]的研究中,对各种显示内容进行了对比分析,结果表明,显示文档的摘要比只显示文档标题可以大大改善相关性判断的准确度。包含文摘的显示虽然提高了相关性判断的准确度,但判断速度受到影响。Marcus等人研究后指出显示主题词(如关键词)及匹配主题词(指同时出现在文档及检索式中的主题词)比只显示文档标题更能提高判断的准确度[24]。一些研究者提出了匹配检索词(同时出现在文档及检索式中的词)来代替匹配主题词,至于检索式的内容与文档的内容的相吻合程度则可通过检索式中所包含的不同的检索词对文档的影响力来决定。因此,要实现可视化的结果呈现还需要对结果文档集的属性进行分析后揭示出隐含在文档集中的规律。
可视化策略所要解决的是根据从信息中抽象出的显示内容采用合适的可视化的显示形式来显示结果。信息可以用各种类型的视觉方式进行描述。
图表的形式变化多端,即便是基本的图表形式也有数十种。目前的显示形式可以归纳为:图形与表,地图,颜色和阴影,多维超立方的可视化(页或切片,重复,高维可视化)。根据Washburne的研究,表格特别适用于用户获得具体的数据值;而连线则适用于发现趋势;柱状图可进行复杂的对比。Cleveland与McGill以图形对象的位置进行描述作为研究点,实验后得出,百分比数值最准确,其次为长度判断、角度、倾斜度判断、面积判断。
在检索结果可视化呈现的研究中,出现了许多商业化的或原型系统。主要是对基于页面的内容及页面之间的链接关系进行可视化描述为用户导航及方便用户对空间结构的理解。如由Texas A&M University的Catherine Marshall及Frank Shipman开发的VIKI是一个利用空间定位来表达文档之间关系的空间超文本系统。在该系统中,利用邻近度、布局及物理相似性来揭示文档间的联系。又如Envision提供了全文检索及基于内容的检索功能,还可以针对文档的某些属性进行检索,如作者、标题。检索结果用图标矩阵来表示,轴则可以由用户指定,如年代、类型、大小、索引词等[25]。在由马里兰大学开发的FilmFinder中,x轴为影片的生产时间,y轴为影片的受欢迎程度[26]。在FilmFinder系统的基础上加以扩展开发出了一个商业系统Spotfire,它可以可视化任何表格数据。也有一些系统采用了没有明确含义的属性作为轴,如BEAD[27]、BIRD[28]及ThemeScape[29]。ThemeScape是采用星系法(Galaxies)中利用夜空中星星的图像实现文献信息集合可视化。每篇文献由一个“文献星”(docustar或者docupoint)表示。彼此相关的文献相互接近,彼此无关的文献相互远离。
在显示形式上,人们对层次状结构也较为熟悉,层次状结构一般是用文本列表、节点-链接、锥形树、大纲图来表示。用树来表示层次结构的Treemap,保证了一个固定大小的显示区域,但是使用起来较为复杂,用户往往要进行15~20分钟的训练后才能掌握。GRIDL[30](Graphical Interface for Digital Libraries)系统借用了文件夹的打开与关闭来显示层次的不同级别。在GRIDL系统中,以类目属性作为轴,这样就可减少区域数增加数据点的重叠(许多数据点将被映射到同一XY区域)。将点形成的簇作为一个显示区域,从而解决重叠问题。如果簇中的数据点超过49,则用条形图来表示。用户点击簇或条形图就可获取标题信息。点击标题就可以获得该文档的更详细信息。GRIDL也支持层次属性的轴。用户可以点击文件夹图标进行类目扩展实现检索优化,过滤掉不相关的结果。
目前检索结果的可视化具体的实现方式有四种:基于文档与检索词的相关性、基于文档结构、基于聚类的文档簇及基于文档间关系。
3.3.3 数据库检索结果提供的可视化
数据库有多种分类方法,按照其存储信息类型的不同分为文献数据库(目录数据库和全文数据库)、数值数据库、事实数据库、多媒体数据库等[31]。这几种数据库所输出检索结果的类型不外乎文本、声频、视频或者是三者的组合。
(1)文献数据库检索结果提供的可视化。
目录型文献数据库检索结果的可视化可以在原有检索系统的基础上添加可视化接口,而全文数据库可视化还需要借助图符库、词库(关键词库和自由词库)、索引库。从信息提供角度,对于检索结果进行可视化分析与转换就可以形成文献数据库检索结果提供的可视化,当然在信息组织阶段还需要相应的调整。
如果检索结果的数量很小,用户对于检索结果的浏览和辨别没有任何困难,那么可视化的效果很难显示出来。但是如果命中文献量过大,或者是具有其他特定属性的数据库检索结果,可视化就是有益的。对于一个专利数据库,按照专利申请的公司进行检索,检索结果包含了关键词(或该专利的摘要,或表示专利主题的文字等)。如果我们对这一系列的检索结果做可视化处理,不同的专利主题用不同的颜色表示,以时间为横坐标,建立二维图形。用户能够容易地看出该公司研究的动向,什么专利是在什么时间申请的,以及相关专利申请的变换,借此还可以了解该公司的发展趋势。
对于检索结果是全文的信息提供,目前也有不少软件涉及。比如美国Berkeley大学数字图书馆研究人员开发的文献检索结果可视化系统TileBars。该系统用于命中文献的显示,表明查询条件与检索结果文献之间的相关性。通过这种显示方式,用户可以更清楚地了解文献内容,从而有针对性地选择文献原文或者原文片断。Tilebars的根本原理是:首先将一篇文献从语义上划分为若干单元块(如章节、段落、页),假定用户有一组检索条件,系统将显示出每个检索条件在该文献每个单元块中的分布情况。这对于以往的以显示关键词和摘要为主的文献检索结果显示方式是一个突破。用户不仅能决定该看哪篇文献,还能决定看文献中具体哪一个部分或哪几个部分。它在检索结果的提供上不再是笼统的整篇文献,而是深入到文献内部,这就为用户节约时间,而且帮助用户快速找到最相关的内容。
(2)数值数据库检索结果提供的可视化。
对于事实数据库,其检索结果提供的可视化类似于文献数据库。而数值数据库存储的主要是数值,数值本身是可以被统计分析的,对它的可视化是建立在统计分析的基础上的。对数值数据库的可视化是因为人们需要了解数据之间的相互关系及发展趋势,希望对数据进行更高层次的分析,以更好地利用这些数据。
中国价格信息网的物价数据库属于数值数据库。提供了市场价格数据库查询。该数据库不仅提供公众查询,而且能进行图形化的对比研究。
(3)多媒体数据库检索结果提供的可视化。
①声频信息。
声频信息本身就是多媒体信息,利用了人类的听觉功能。但是如果检索结果是数量较大的声频信息,或者是面对听觉障碍的用户,声频信息可以通过文本这个桥梁转为可视化的形式,将听觉转换为视觉,这里的声频信息指有语言的声频信息。声频信息可视化存在一个模式识别的问题。首先要建立一个语音库,对特定声音特征进行采样分析,这样才能保障对于特定声音的较高识别率;知识库的作用在于提供语境信息,对于语音识别的结果进行基于上下文的判断,最终形成符合逻辑的文本输出。声频信息的可视化提供主要还是归结为文本信息的可视化。
②视频信息。
视频信息自身已经是视觉化存在了,那视频信息可视化又作何解释呢?视频信息可视化主要是指视频信息检索结果提供的可视化和视频信息组织的可视化。传统的视频信息组织是采用文字标引,检索结果是文字性的描述和指向视频文件的链接。而这里的视频信息可视化指在标引阶段和检索结果提供阶段采用视频信息的关键帧。这种信息提供方式改进了传统的对视频数据的顺序查找方式,达到了视频信息的快速定位和部分析取,同时改善传统的基于主题词的视频信息检索。
视频信息检索结果提供的可视化主要是要求提供给用户的不仅仅是若干个关键词的描述,而是关键帧(如图7所示),用户通过浏览若干关键帧来确定检索结果是否符合需要。为了达到这样的目标,首先需要将视频数据进行可视化组织(标引、分类、摘要等)。
图7 视频信息组织与检索的示意图
自动视频图像标引技术是目前正在讨论的可视化技术之一。它将完整的视频资料分割成若干片段,从中分析出关键帧作为后备标引帧,最后对后备帧进行分析对比得到标引帧,并将这些标引帧作为标引内容存入数据库,保证可以直接进行图像检索获取视频信息。基于视频信息内容的分类主要是根据关键帧的内容进行分类,可以借助视频主题标引的结果进行分类。视频摘要是指将一部电影、电视剧或其他较长视频资料浓缩成一部较短的视频材料,如一部影片的主要内容、大型晚会的集锦等[32]。
3.3.4 网络信息检索结果提供的可视化
网络信息提供主要有两种,一种是原始信息的提供,另一种是检索结果的提供。前者涉及到的可视化方法与前面(3.3.1中)论述的“原始信息提供的可视化”基本相同,后者主要指对网络信息检索结果进行可视化加工。由于网络信息最主要的特点就是页面之间的相互联系,因此对于网络信息检索结果提供的可视化技术主要是可视化地表现这种关系。
现已广泛使用的网络信息检索有两种方式,分类浏览方式和基于关键词的全文检索。其检索结果是网站、网页地址,以及一段简要的介绍性文字。从用户的检索实践分析,由于分类浏览方式大部分由人工采集与标引信息,因此准确性高,检索结果数量适中;而基于关键词的方式由自动搜索软件收集和组织信息,因此检索结果数量极大,查准率不高。
在基于分类的可视化浏览方法中,Antarctic System公司开发的Visual Net最具代表性[33],它以可浏览的主题地图来显示各种信息(Office文档、Web页、E-mail等),并可将如文档类型、日期、文件大小等可以快速帮助用户定位所需要信息的元数据信息显示出来,用户通过点击地图上的相关类目来发现信息。它已广泛运用于图书馆、政府部门、网络信息提供者及搜索引擎。
在基于链接关系的浏览界面可视化中,根据显示的图状结构可分为层状和网状两大类型。层状的代表有Hyperbolic Tree,例如,Microsoft公司就在其Site Server Content Analyzer应用中采用了一个H-tree控件来描述和显示Web站点的结构。网状结构的代表是由Touch Graph提供的JAVA小程序Google Browser,它可以通过浏览Google的数据库,绘出以某一站点为中心的所有相关联的站点的关联图,点击某一站点的提示小图标,可以看到其基本信息和在Google中的目录分类。这个关联图是动态的,可以实现互动,双击某一站点,它会缓慢运动,绘制出以此站点为中心派生出来的新的关联图。
在可视化方法中,圆锥树(Cone Trees)也是一种常用方法。图8形象地显示了概念间的层次结构。根据需要,可点击某一部分而使其放大、缩小、旋转变化。
图8 Cone Trees
(来源:http://www.icg.tu-graz.ac.at/~hofer/mmis97/cone_trees.html)
对Web页面及其链接的可视化检索系统有VisWeb。它通过抽取页面的重要属性,如URL、网页摘要、超链接等,利用形状、颜色、线条等视觉属性来实现页面的图形化描述。用户可以就显示的形状进行动态调整。
目前在浏览检索结果中,联想和跳跃的方式给用户提供了一种全新的尝试和很大的自由度,但是容易产生迷航和认知的过载[34]。可视化导航是解决这个问题的方法之一。
目前已有一些系统根据页面间的链接实现了可视化浏览。Pad-Prints[35]能将已访问页面动态生成一个图形化的浏览历史地图,当用户从一个页面进入另一个页面时,系统自动地将页面添加到图中,利用Pad++可以实现在最小的屏幕空间中显示整个浏览历史地图。MAPA根据超链接生成一个交互式层次状的导航图[36]。页面用图符形式的节点表示,根据节点的访问顺序分成焦点节点、父节点、子节点。Multiple Focus-context Views提供了Web页面的整体结构视图[37]。Contextures将超链接结构可视化,为用户提供搜索点,当用户浏览某个类目信息时,系统能自动提供相关的信息[38]。
由多伦多大学计算机系统研究院开发的Hy+可以用来实现浏览路径的可视化。利用Hy+把用户用Mosaic访问过的Web进行可视化。
在用户浏览过程中,WebMap可创建和更新用户浏览历史的拓扑图[39]。用节点代表文档,边代表链接,从用户所访问的文档之间的关系就可以反映出超文本的结构。根据用户的浏览历史可以选取多种图形方式来显示,如树、圆、长方形、水平树等。
4 当前的主要研究成果
经过十几年的努力,信息可视化已取得了丰硕成果。主要有以下几个方面:
(1)每年召开了两个系列的研讨会,出版了两个基本系列的会议论文集。
(2)2002年3月推出了《信息可视化》,专门期刊的出现使得此领域的研究者和实践者能够交流思想从而促进本领域的健康发展。
(3)出版了一些信息可视化的著作。自1999年起,推出了几本关于信息可视化的书,主要有:Card等(1999)、Ware(2000)、Spence(2001)。在过去的6年里,信息可视化文献数量的增长非常庞大。即使只对其中重要的那部分文献进行一个概述也是一件越来越困难的工作。Bederson和Shneiderman编写的书——《信息可视化技能》(The Craft of Information Visualization,2003)是一本重要的集成性质的信息可视化的书籍。
(4)推出了一批可视化工具与系统。前面我们已讨论了欧、美、日本等地的一些可视化系统;如,Dynamic Diagrams开发的可视化工具MAPA。1997年间,Maryland大学的学生建立了一种综述性的资源,称为网上信息可视化环境的在线图书馆。按照基本的数据结构,如树状和网状结构,来组织信息,并且包含一个参考书目展示直到那时的研究状况(Shneiderman,1996)。早期一个学生做的项目在虚拟环境和远程显示中开发了一个网站,提供直到1993年的研究历史历程的快照。Iowa State大学支持关于信息可视化的项目、研究、产品和服务的交易网站。网站称为Big Picture,它涵盖了从网站的可视化浏览到数据库特别是MARC和目录数据库中导航的所有观点,应用研究的通用书目也包含其中。
5 结束语
综上所述,信息可视化的研究成果丰硕。它既为信息管理与知识管理开辟了一片新天地,又为成果的推广应用开辟了道路。
当然,信息可视化还面临着一系列挑战。Drexel大学的学者ChaomeiChen提出了“信息可视化中十个最需解决的问题”(Top 10 Unsolved Information Visualization Problems——July/August 2005 Published by the IEEEComputer Society):
(1)可用性(Usability):虽然整体的可视化研究在增涨和加速,但是可用性研究和经验性评估已经相对减慢。
(2)理解基本的感知和认知的任务(Understanding elementary perceptual-cognitive tasks):根据当前的基本的感知和认知的任务水平,我们需要从新一代的可视化系统中收集充实的经验性证据。次要的感知和认知的任务包括基于邻近一簇点的识别,基于价值的时间序列趋势辨认或者先前未知连接发现。
(3)知识优先(Prior knowledge):知识优先问题应该被看做一种要求对具有适应性的信息可视化系统,以适应用户知识的积累。
(4)教育和练习(Education and training):我们需要一般的信息可视化受众提高信息可视化潜力的意识,也许更重要的是提高他们在信息化中现存的或创新的方法解决其他学科问题的意识。
(5)内在的质量措施(Intrinsic quality measures)。
(6)可测量性问题对信息可视化是一个长期的挑战。
(7)美学(Aesthetics):我们应该理解从美学观念建立的可视化图片对理解信息的重要性。
(8)从抽象的信息结构到动态信息可视化的转换也是当前的一个挑战。
(9)信息可视化技术在发现因果关系、可视化推理并进行预测仍然是一大挑战。
(10)知识域的可视化(Knowledge domain visualization)是一个整体推进的问题,它的挑战包括前面介绍的9个挑战。知识可视化最大的优点是能显示大量的信息,这样多的信息已经超过了文本的显示能力。
我们可以预见不久的将来,随着信息可视化的研究和应用不断深入,它必将信息管理和知识管理推向一个崭新的阶段。
【参考文献】
[1]Chaomei Chen.Mapping Scientific Frontiers:The Quest Knowledge Visualization.Springer-Verlag,2003
[2]史忠植著.知识发现.北京:清华大学出版社,2002
[3]周宁,张玉峰,张李义.信息可视化与知识检索.科学出版社,2005
[4]http://www.vsj.or.jp/2005-03-28
[5]曹燕,王迎伟.基于AVS/Express平台开发气象模式三维可视化系统的应用研究http://www.visualsky.com/2005-03-22
[6]李德仁.数字地球与3S技术.http://www.laocamou.net/ printpage.asp 2005-02-28
[7]AVS在石油勘探中的应用.http://www.visualsky.com/application/PGS.htm2004-10-20
[8]http://www.visualsky.com/application/med.htm2004-10-20
[9]Hayato ohwada,Fumiomizoguchi.Integrating information visualization and retrieval forWWWinformation discovery.Theoretical computer science.2003.292;547~571
[10]林春燕,朱东华.一种快速的文本聚类-分类法.计算机工程与科学.2004,26(7):74
[11]赖茂生,王延飞,赵丹群.计算机情报检索.北京大学出版社,1993,40~42
[12][加]Jiawei,Micheline Kamber著,范明,孟小峰译.数据挖掘:概念与技术.机械工业出版社,2001,231~232
[13]Ordonez C.,Omiecinski E.FREM:Fast and robust EMclustering for large data sets.In:Kalpakis K.,Goharian N.,Grossman D.,eds.Proc.of the 2002 ACMCIKMInt’l Conf.on Information and Knowledge Management.McLean:ACM Press,2002.590-599.
[14]Ester M..et.al.A density-based algorithm for discovering clusters in large spatial databases with noise.In:Simoudis E.,Han JW,Fayyad UM,eds.Proc.of the 2ndInt'l Conf.on Knowledge Discovery and Data Mining(KDD'96).Portland:AAAI Press,1996.226-231.
[15]Song QB,Shen JY.AWeb document clustering algorithmbased on association rule.Journal of Software,2002,13(3):417-423
[16]Sheikholeslami G.,Chatterjee S.,Zhang AD.WaveCluster:A multi-resolution clustering approach for very large spatial databases.In:Gupta A.,ShmueliO.,WidomJ.,eds.Proc.of the24thInt'l Conf.on Very Large Data Bases.New York:Morgan Kaufmann,1998.428-439.
[17]ZhouNing,Yangfeng.et,al.Discovering B-clusters&B-authorities in E-commerce Site by Visualized Method Based on Undirected Graph.The 3rdWuhan International Conference On E-Business. 2004,980-988
[18]周宁,杨峰,刘玮.数字图书馆可视化接口方法探讨.中国图书馆学报,2004(4):62~66
[19]胡昌平.信息管理科学导论.高等教育出版社,2001
[20]刘玮,周宁,张芳芳.基于文本的信息可视化方法研究.现代图书情报技术,2003(2)34~36
[21]Nowell,L.T.et,al.Visualizing Search Results:Some Alternatives To Query-Document Similarity.Proceedings of the 19thAnnual International ACMSIGIR Conference on Research and Development in Information Retrieval,1996:67-75
[22]Veerasamy,A.,Heikes,R.Effectiveness of a Graphical Display of Retrieval Results.Proceedings of the 20thAnnual International ACMSIGIR Conference on Research and Development in Information Retrieval,1997:236-244
[23]G.J.Rath,A.Resnick,T.R.Savage.Comparisons of four types of lexical indicators of content.American Documentations,April 1961:126-130
[24]Richard S.et,al.Catalog information and text as indicators of relevance.JASIS,Jan 1978:15-30
[25]Heath,Lenwood S.et,al.Envision:A User-Centered Database of Computer Science Literature.Communications of the ACM,1994,58(4):52-53
[26]Christopher Ahlberg,Ben Shneiderman.Visual information seeking using the FilmFinder.Conference companion on Human factors in computing systems,April 24-28,1994:433-434
[27]Chalmers,M,Chitson,P.Bead.Exploration in Information Visualization,Proc.ACMSpecial Interest Group on Information Retreival(SIGIR),ACMPress,1992:330-337
[28]Kim,H.,Korfhage,R.,BIRD.Browsing Interface for the Retrieval of Documents,Proc.of IEEE Symposium on Visual Language'94,IEEE(1994):176-177
[29]J.A.Wise.et,al.Visualizing the non-visual:Spatial analysis and interaction with information fromtext documents.Proc.of Information Visualization'1995:51-58
[30]http://www.cs.umd.edu/hcil/west-legal/gridl/2004-02-21
[31]周宁.信息资源数据库.武汉大学出版社,2001
[32]苏新宁.视频信息索引技术研究进展.《信息可视化与知识管
理》会议论文集,湖北人民出版社,2003,21~30
[33]文燕平,周宁,杨峰.浏览界面可视化研究.《信息可视化与知识管理》会议论文集,湖北人民出版社,2003,62~69
[34]刘玉照,黄蕾.超媒体检索中的“迷航”问题及其解决方法.情报资料工作,2001(5):26~29
[35]Ron R.Hightower.et,al.PadPrints:GraphicalMultiscaleWeb Histories.Proceedings of the 11thannual ACMsymposiumon User interface software and technology,November 1998:121-122
[36]David Durand,Paul Kahn.MAPA:A System for Inducing and Visualizing Hierarchy in Websites.Proceedings of the ninth ACM conference on Hypertext and Hypermedia:links,objects,time and space—structure in hypermedia systems,1998:66-76
[37]Laurent Robert,Eric Lecolinet.Browsing Hyperdocuments with Multiple Focus+context Views.Proceedingsof the9thACMconference on Hypertext and hypermedia:links,objects,time and space—structure in hypermedia systems,May 1998:293-294
[38]Terry Stanley.Contextures.Proceedings of the 9thACM conference on Hypertext and Hypermedia:links,objects,time and space—structure in hypermedia systems,May 1998:295-296
[39]Peter D9mel.WebMap-AGraphical Hypertext Navigation Tool.The 2ndInternationalWWWConference Fall'94 in Chicago
【作者简介】
周 宁,中国信息资源数据库专家、情报学家。1943年8月生于湖北省钟祥市,1966年毕业于华中师范大学数学系。1978年调武汉大学任教。现任武汉大学信息管理学院教授、博士生导师,兼任英国LISA国际编委。中国科技情报学会专业委员会委员、国际信息系统学会会员。主要从事情报学、管理科学与工程专业的工作。
在长期的教学、科研活动中,主要研究课题为:信息资源数据库、信息组织与检索、信息可视化与知识管理等。先后为本科生开课5门,为硕士生开课3门,为博士生开课4门。主持过国家自然科学基金项目《东方多语种文献信息管理的应用基础研究》、教育部人文社会科学重大项目《信息可视化与知识检索》和省级项目多项。现正主持国家自然科学基金项目《我国数字化信息资源管理的可视化模型研究》。现经过省级鉴定的项目4个,两项为国内领先水平、一项为国内先进水平、另一项填补国内空白,取得了丰硕的成果。主要论著有《信息资源数据库》(第二版)、《信息可视化与知识检索》、《信息组织》(第二版)、《情报数据库系统》(第二版)、《多语种文献计算机管理》、《信息可视化与知识管理》等11部。其中,《情报数据库系统》(第二版)获国家教委优秀教材奖。《信息组织学》被评为湖北省精品课程。另有两项研究成果获省级奖励。在国内外学术期刊和学术会议上发表研究论文:《文献信息可视化研究》、《信息资源描述与存储的可视化研究》、《信息检索可视化初探》、《信息提供的可视化研究》、On the Methods of Information Resources Visualization等120多篇。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。