DLI-2目前共有六个研究项目,还会进一步扩充。下面对其进行简单的介绍。
1.专家选择利用信息的轨迹研究及其利用
此项目由俄勒冈健康科学大学的科学技术研究生院负责,对医生在看病时选择和利用病历信息的行为进行研究,以使他在医病时所用知识能为他人所用。病历在时间、空间和内容上都是很复杂的,医生在医病时,对病人病历仔细研究,剔除不相关信息,选出与病症相关的信息,她对病历信息所作的取舍对后来为相同病症利用病历的医生很有帮助。
此项目的研究内容一方面是对医生利用病历解决临床问题的过程进行描述,如在纸张型和数字化的病历中,各有哪些线索或病历属性(如文档形式、外观、清晰度和别的医生利用此文档的历史等)为医生所用;病历的数字化对医生利用病历有何影响;可以为医生利用数字化病历提供何种工具代替其使用纸张型病历时所用的书签、在病历封套上作记录等手段;专家如何判断自己是否已经获得足够信息,这与获得的信息量、信息复杂程度和病历媒质有何关系;专家如何把所得信息进行组织、综合,病历媒质对此有何影响?
另一方面是研究病历信息的过滤技术,以获取对解除病症有用的信息,按易于摘录和处理的原则,对信息进一步过滤选择,对这些可能来自不同医生的病历信息进行语义整合,并研究相关技术,从病历信息中只选择规则的结构化信息,为数据库方式的存取和查询服务。还将研究机器学习技术,从非结构化的文本中抽取规则的结构化信息,对文本内容进行描述。
2.图像传播中的安全研究(TID,Trusted lmage Dissemination)
本研究项目的负责单位为斯坦福大学计算机科学系,目标是研究图像过滤技术和方法,如为安全或隐私起见,对医学信息包括含有文本的图像信息,进行更彻底的过滤。TID将以图像中的文本信息作为研究重点,其前身为TIHI和SAW。TIHI设计了称为“安全维护者”的软件工具,允许合法的外部用户远程登录一个医学研究机构获取信息,但同时对一些内容进行保护。TIHI的后续研究为SAW,研究对制造业中数字化信息包括图像信息(如图纸)的保护。
当前的 TID研究以数字化的医疗信息为研究对象,但其应用的原理、方法具有普遍意义。斯坦福大学的研究大多基于参数化的微波(parameterizedwavelets)技术,其试验结果表明,这种微波转换分析能够满足对图像的索引和搜寻,其过滤功能快速而可靠。
其研究项目的重点是进一步改进以微波技术为基础搜索医学图像数据库的算法,推动从多媒体医学数据库中摸索图像和相关文本信息的技术的发展;从搜索到的图像中抽取文本信息;研究与医学图像的安全保护有关的规则,进一步改进“安全维护者”,并根据规则研究自动编辑医学图像的技术,发展和调试对数字医学图像进行手工编辑的工具;进一步研究安全维护者的网上用户界面。
3.棉质藏品的2D/3D重建
本研究项目由肯塔基大学的计算机系和英语系负责,将根据人文科学研究人员的要求,研究新颖有效的方法,对英国国家图书馆的棉质藏品中逐渐老化和已损坏的原稿进行修复、数字化和编辑,使其变的完整可用,为这些原稿提供一个电子版,并将其作为图像来进行检索,建立一个新的数字化图书馆。特别是,将涉及如下三个方面的研究。
利用新颖的光照方法和2D/3D数字图像加工算法,对原稿中人工难以识别的部分进行恢复。
研究新的描述方法和结构化的信息,对数字化后的原稿进行检索。这种描述方法应满足对图像本身进行快速有效检索的要求。在对图像进行编辑的过程中,结构化信息如文本、评注、原稿不同部分的关联、对图像特定部分进行修复所遵循的规则等,会被添加到数字化后的原稿收藏中,从而有利于对原稿的理解和检索。
特别地为人文科学研究人员开发特定的工具,利用它对数字化后的原稿(高分辨率的图像)进行编辑,使人文科学研究人员能够从数字化原稿中有效率地收集复杂的版本。
该项研究用为SUR(Shared University Research)的一部分,已经得到 IBM的大力资助。而与英国国家图书馆的合作,使得该项目能接触高价值的藏品和原稿,听取该图书馆专家意见,使用该馆数字化所需设备。
4.WWW 上自动化参与“图书馆员”
该项研究由华盛顿大学计算机科学系负责,其研究目标是设计网上的“软件机器人”,它作为与传统的参考图书馆员相类似的网上的自动化参考“图书馆员”,并非“流体力学”等专业知识的专家,但对网上的信息源有较深的了解,能帮助用户在网上找到高质量的用户所需专业信息。
该小组计划中的“软件机器人”由四部分组成,“用户界面”对用户的查询语句和选项进行规范化;“结果合并”负责搜集信息源返回的回复,去除重复条目,把结果进行整合并返回到“用户界面”部分;“并行的Web界面”部分负责从Web下载HTML页面,向Web发出查询请求,从各信息源搜集结果。“Harness”包含许多称为“Wrapper”的程序,每个“Wrapper”对一个特定的信息源进行了描述。“Harness”收到用户的检索请求后,根据各“wrapper”将其转化为各信息源(如图中的Lycos)所能理解的格式,送到“并行的 Web界面”。
此项目的研究包括三个方面:
第一方面是自动化的建立“Wrapper”,对各信息源进行描述。首先在如 search.con类的搜索引擎和Search Broker中抽取专业科技信息源,建立信息源数据库。其次是在语义网络基础上,对信息源进行分类,把信息源与“语意网络”中的一个或几个节点建立关联。另外是提高软件机器人的检索能力,把查询语句的各部分与信息源页面上的不同表格良好的对应,并提高机器人对回复的分析能力。还将建立信息源速度(打开Http链接的时间、数据平均传输速度)、可靠性(拒绝访问或超时的概率)的统计数据。
第二方面是为用户的查询请求选择适当的信息源,以减轻网络负担,减少不相干的回复。查询语句一般包含技术化的单词或短语,它们与查询的主题类别进而与适当的信息源有极为密切的联系,利用大量的在线技术词典和数据库,可把这些单词或短语与其主题类别联系起来,如“PrecordiaI Capnograph”属肺用药物。把语义网络作为贝叶斯网络处理,可在语义网络中找到与上面标注后的查询语句最相关的可搜索主题。
第三方面是在潜在的信息源确定后,对一些信息源推迟访问,以降低信息源和网络的负载、查询费用,目标是以合理的时间和费用来获得所需信息:给定 N个信息源,每个信息源都由三个变量(操作时间、费用、提供所需信息的可能性)来描述,根据不同的目标函数,利用运筹学知识对访问各信息源的顺序进行优化。
5.为社会科学服务的实验图书馆
此项目的任务是设计进行社会学与经济学实验所需的软件系统,并将其置于互联网上,从而建立基于互联网的实验图书馆,使得研究人员只要与互联网相连就能利用该图书馆进行社会学和经济学的实验工作。
当前的电子实验室的不足表现在四个方面,首先是电子实验室的建设与维护费用高,使得一些实验无人来做或研究人员太少;其次,电子实验室所需软件的开发占用时间长,而且软件常过于专业化,缺乏灵活性;再者,很少有人重做实验对实验结果进行检查;最后,电子实验室大都用在校大学生作为实验对象,抽取的人口样本很狭窄。计划中的实验软件由专业人员开发,尽可能满足多种实验需求,它们将作为共享软件放在网上,使得实验成本大大降低,其实验对象可跨越国界、文化和意识形态,从而较好地解决了上述四方面问题。
该项目的研究由一个中心、两个实验室负责。其中心位于南卡罗莱那大学,负责统筹管理此图书馆的设计和建立工作,并对图书馆的表现进行评估。其任务包括:服务器的维护、实验图书馆的模块结构设计、站点的建立与维护、实验图书馆系统软件与各中心的实验应用软件的相容性研究等。
“交易网络”实验研究小组位于艾奥瓦大学,研究如何用JAVA语言把南卡罗莱那大学研究“交易网络”的基于Windows的电子实验室软件ExNetIl进行改进,使之能在网上应用。
经济学实验研究小组位于佐治亚州立大学,进行“环境危害评估”方面的实验。当前,已经可以与中国、墨西哥、俄罗斯和南非等国家进行联合实验。此实验所需软件放到网上进行后,实验对象的样本将更有普遍意义,结论更有普遍性。
社会—经济学(Socio—Enonomics)实验研究小组位于南卡罗莱那大学,在“有限理性”假设的基础上,研究市场、交易情形下的理性和利己理论,分四个方面进行实验:有限理性、公平与正义、frming、评估/影响(valuation/influence)。
6.高性能的数字图书馆分类系统:从信息搜寻到知识管理
该研究由亚利桑那大学管理信息系统系的研究小组负责,旨在研究相关结构和技术,为大规模的特定领域的文本信息自动化地产生分类系统,并把此分类系统与已经存在的手工分类系统进行比较、合并,以有利于数字化图书馆藏品的搜寻、分析和利用。
本项目着重研究两个方面的问题,一方面是研究各种聚类算法产生的结果能否与人工分类结果相媲美,哪一种算法在何种情形下产生的结果最理想?另一方面是用这些聚类算法为大规模的(上百万)的、数字图书馆藏品产生分类系统,从计算能力方面考虑是否可行?为提高计算能力,将对算法进行何种优化,并采用哪些并行处理技术?
此小组将进行三个方面的不同实验,各实验有自己的专用实验对象。在医学领域,对美国国家癌症研究所的癌症文献(其覆盖了200多种医学期刊从1992年1月到1998 年6月的癌症摘要,包含714 537份文档)进行并行处理,产生自动分类系统,与美国医学图书馆的联合医学语言系统(UMLS,UnifedMedicaI Language System,它的元分类词表包含476 313个概念和1 051 901个不同的概念名称)的元分类词表的癌症部分相比较。在地球科学领域,利用DLI的亚历山大研究项目的300 000条记录的地理学、地质学资料数据库和借由美国Tulsa大学的石油文摘服务获得的从1985到1995年的约500 000份文摘自动化地产生地球科学分类系统,与美国地质研究所人工整理的地球资料分类词表(大约有27 000个术语)相比较。在网络页面方面,对该小组已有的由网络软件机器人收集的1.5M的 Web页进行聚类,生成自动化分类系统后,此小组将把它同Yahoo 的手工分类进行比较。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。