首页 理论教育 医学数据挖掘技术

医学数据挖掘技术

时间:2023-05-14 理论教育 版权反馈
【摘要】:医学数据的利用技术和管理方式是一个广泛的论题,医学数据挖掘技术是目前发展最快、关注最多、最富于活力的内容,本章将以较大的篇幅介绍它的原理及在医学领域的应用。医学数据挖掘为医学信息管理通向知识管理架设了一座桥梁。医学数据不可避免地涉及患者的一些隐私信息,医学数据挖掘者有义务和职责在保护患者隐私的基础上进行科学研究,并且确保这些医学数据的安全性和机密性。

2.3 医学数据挖掘技术

医学数据的利用技术和管理方式是一个广泛的论题,医学数据挖掘技术是目前发展最快、关注最多、最富于活力的内容,本章将以较大的篇幅介绍它的原理及在医学领域的应用。

2.3.1 数据库与数据仓库

说到数据挖掘,我们常常会碰到数据仓库的概念。数据库和数据仓库是两个概念。简而言之,数据库是面向事务的设计,数据仓库是面向主题的设计。

数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计时是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计;数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。维是看问题的角度,比如时间、部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。

数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,为了决策需要而产生的,它决不是所谓的“大型数据库”。W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。

“面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。这一点,类似于传统农贸市场与超市的区别——市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一块。也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。

“与时间相关”:数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。决策中,时间属性很重要。同样都是累计购买过9 000元产品的顾客,一位是最近三个月购买9 000元,一位是最近一年从未买过,这对于决策者意义是不同的。

“不可修改”:数据仓库中的数据并不是最新的,而是来源于其他数据源。数据仓库反映的是历史信息,并不是数据库处理的那种日常事务数据。因此,数据仓库中的数据是极少或根本不修改的。当然,向数据仓库添加数据是允许的。

数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成,各有千秋。数据仓库建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库必须有如下几个优点:第一、效率足够高;第二、数据准确;第三、具有良好的扩展性。

2.3.2 医学数据挖掘概述

数据挖掘(data mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。

在当今的信息时代,随着信息和计算机技术的飞速发展,人们可以在短时间内搜集和积累大量的数据。但是,如何快速、准确地从这大量的数据中发现有用的知识,已成为人们迫切需要解决的问题。数据挖掘正是为满足这种需求而提出的一种新技术。

数据挖掘是当前研究的热门领域,它是集信息科学、管理科学、统计学和人工智能等学科于一身的交叉学科。数据挖掘在生物医学领域中的应用有着广阔的前景。医学数据挖掘为医学信息管理通向知识管理架设了一座桥梁。

由于医学信息自身具有的特殊性和复杂性,与常规数据挖掘相比,医学数据挖掘在挖掘对象的广泛性,挖掘算法的高效性和鲁棒性,提供知识或决策的准确性方面有着更高的要求。在医学数据挖掘方法中,决策树、神经网络、模糊逻辑、进化计算、关联规则、粗糙集理论和支持向量机等算法都显示出了各自独特的优越性,已经在医学数据挖掘中得到了成功的应用。随着理论研究的深入和进一步的实践摸索,数据挖掘技术在疾病的诊断和治疗,医学科研与教学以及医院的管理等方面将会发挥更大的作用。

医学领域存在着大量的数据,包括完整的人类遗传密码的信息,大量关于病人的病史、诊断、检验和治疗的临床信息,药品管理信息,医院管理信息等,数据挖掘理论应用于医学,对医学数据进行分析,提取隐含的有价值有意义的信息,对医院管理者做出明智决策,医生对病人正确的诊断和治疗,以及人类疾病和健康的遗传规律的研究都起着极为重要的作用,这对促进人类健康,具有积极作用。

1)医学数据挖掘的过程

数据挖掘是一个完整的过程,该过程从大型数据库中挖掘出先前未知的、有效的、实用的信息,并使用这些信息做出决策或丰富知识。

这些过程同样适用于医学数据挖掘,基本过程如下:①确定业务对象。清晰地定义出业务问题,认清数据挖掘的目的。②数据准备。搜索所有与业务对象有关的内部和外部数据信息,从中选择出适用于数据挖掘应用的数据。将数据转换成一个分析模型,这个模型是针对挖掘算法建立的。真正适合挖掘算法的分析模型是数据挖掘成功的关键。③数据挖掘。对准备好的数据进行挖掘。除了选择合适的挖掘算法外,其他一切工作都能自动地完成。④结果分析。其使用的分析方法一般应视数据挖掘操作而定,通常会用到可视化技术。⑤知识应用。将分析所得到的知识集成到业务信息系统的组织结构中去。

2)医学数据挖掘的特点

在医学数据挖掘中必须充分考虑医学数据的特点而采取相应的措施。这些特点是:

(1)医学数据的异质性。医学数据具有大容量和复杂性,医学数据包括图像、病人表述、医生的解释等,这些都是疾病诊断、预后及治疗的基础,是数据挖掘应该考虑的问题。医生对图像信号及其他临床数据的解释是用非结构化的语言来表示的,很难标准化,甚至于同一部门专家对病人状态的含糊描述也不能达到一致意见,他们不仅用不同的名称描述同一个疾病,还用不同的语法结构描述医学术语之间的关系,因此对其数据挖掘是很困难的。医学数据的低数学特性,医学数据自然语言的描述及其图像很难用公式以及模式来描述。

(2)伦理的、法律的和社会问题。医学的数据是关于人的资料,因此医学资料涉及伦理、法律方面的问题;涉及数据私有性和安全性问题,涉及数据所有权问题,这些都是数据挖掘要考虑的。

(3)医学数据的隐私性。医学数据不可避免地涉及患者的一些隐私信息,医学数据挖掘者有义务和职责在保护患者隐私的基础上进行科学研究,并且确保这些医学数据的安全性和机密性。

(4)医学数据的多样性。由于大量的医学数据是从医学影像、实验数据以及医生与病人的交流中获得的,所以原始的医学数据具有多种形式。医学数据包括影像、信号、纯数值、文字等。医学数据的多样性是它区别于其他领域数据的最显著特征。

(5)医学数据的不完整性。医学数据的搜集和处理过程经常相互脱节。搜集是以治愈患者为直接目的,而处理是以寻找某种疾病的一般规律为目的,因此搜集的信息可能无法涵盖研究需要的所有信息。病例和病案的有限性使医学数据库不可能对任何一种疾病信息都能全面地反映。

(6)医学数据的冗余性。医学数据库是一个庞大的数据资源,每天都会有大量的记录存储到数据库中,其中可能会包含重复的、无关紧要的、甚至是相互矛盾的记录。此外,医学数据还具有时间性特征,医学检测的信号、影像都是时间函数,具有较强的时效性。

3)数据挖掘在医学中的应用

(1)在疾病辅助诊断中的应用。医学专家系统是将专家的诊断治疗经验转化为规则,只要向系统中输入患者的相关信息,就能迅速地作出判断,这样可以减少医生的失误。但是专家系统的诊断标准是根据某个或某几个专家的经验来制订的,缺乏客观性和普遍性。此外,专家系统的推理规则和结论都是预先设计好的,有些患者的临床表现可能不在此范围内,因此,有一定的局限性。采用数据挖掘可以通过对患者资料数据库中大量历史数据的处理,挖掘出有价值的诊断规则,这样根据患者的相关信息等就可以作出正确结论,从而排除了人为因素的干扰,客观性强,此外由于处理的数据量很大,因此得到的诊断规则有着较好的普遍性。

(2)在疾病预测和分析中的应用。确定某些疾病的发展模式,根据病人的病史预测病情的发展趋势,从而有针对性地预防疾病的发生。应用粗糙集理论根据以往病例归纳出诊断规则,用来预测新的疾病的发生,现有的人工预测早产的准确率只有17%—38%,应用粗糙集理论则可提高到68%—90%。在病案信息库中有大量的关于病人的病情信息,对数据库中的信息进行关联规则挖掘可以发现有意义的关系及模式。

(3)在药物开发中的应用。在新药的研究、开发过程中,先导化合物的发掘是关键环节,有两种基本途径,一是随机筛选与意外发现,二是定向发掘。采用数据挖掘技术建立的药物开发系统可以用来寻找同药效学相关的有效化学物质基础,确定药效基团,指导新药的研究与开发,从而缩短新药的研究开发周期,降低研究开发费用。

(4)在医疗管理中的应用。医疗管理的核心是数据、标准、计划以及治疗的质量。目前医疗管理只是停留在基于数据库技术支持的操作型事物处理的水平上。利用数据挖掘技术构建数据挖掘模型、选用适当算法就可以预测医院利润,未来某些时间段内哪些药品使用频率最高或最低,那些疾病发病率最高等问题。

(5)在遗传学方面的应用。用序列模式分析DNA序列,有助于遗传性疾病的鉴定,胎儿先天性疾病的诊断。

综上所述,医学数据库包括电子病历、医学影像、病理改变、化验结果等,而目前数据挖掘技术主要应用于以结构化数据为主的关系数据库、事务数据库和数据仓库,对复杂类型数据的挖掘尚处在起步阶段。结合医学信息自身具有的特殊性和复杂性,选择适合医学数据类型的数据挖掘工具,并解决好数据挖掘过程中的关键技术,只有这样才能尽可能大地发挥数据挖掘技术在医学信息获取中的价值,从而更好地服务于医学、受惠于患者。

2.3.3 医学数据挖掘系统

数据挖掘的核心技术是人工智能、机器学习和统计学,但是数据挖掘系统不是多项技术的简单组合,而是一个完整的有机的体系,它还需要辅助技术的支持,才能完成数据采集、预处理、数据分析、结果表达这一系列任务,最后将分析结果呈现在用户面前。因此,数据挖掘系统是一个集信息管理、信息检索、专家系统、分析评估、数据仓库等为一体的应用软件系统。它由各类数据库、挖掘前处理模块、挖掘操作模块、模式评估模块、知识输出模块组成,这些模块的有机组成就构成了数据挖掘系统的体系结构。典型的数据挖掘系统具有如图2-1的主要组成部分。

img7

图2-1 数据挖掘系统体系结构图(源自苏新宁,2003年)

1)数据库管理模块

该模块负责对系统内数据库、数据仓库、挖掘知识库的维护和管理。这些数据库,数据仓库是对外部数据库进行转换、清理、净化得到的,它是数据挖掘的基础。挖掘知识库记载有经验、规则、技术、方法、理论、事实以及挖掘过程中用到的知识等,也称作领域知识库。其主要用来指导挖掘的过程以及用来评价挖掘出来的候选模式。

2)挖掘前处理模块

该模块对所收集到的数据进行清理、集成、选择、转换,生成数据仓库或数据库。其中,清理主要是清理噪音;集成是将多种数据源组合在一起;选择是指选择与问题相关的数据;转换是将所选择数据转换成可挖掘形式。如果因为数据的问题影响到挖掘模式,模式评估将会发现,并返回重新进行数据处理过程或程序。

3)挖掘操作模块

该模块利用各种数据挖掘算法,针对数据库,数据仓库,数据挖掘库并借助挖掘知识库中的规则、方法、经验和事实数据等,挖掘和发现知识。这一模块是整个数据挖掘系统的核心部分,涉及的算法与技术有关联分析法、判定树回归法、贝叶斯分析法、回归分析法、各种聚类分析法、联机分析处理、文本挖掘技术、多媒体数据挖掘技术等。

4)模式评估模块

该模块对数据挖掘结果进行评估。由于所挖掘出的模式可能有许多,需要将用户的兴趣度与这些模式进行分析对比,评估模式价值,分析不足原因,如果挖掘出的模式与用户兴趣度相差较大,需返回相应的过程(如挖掘前处理或挖掘操作)重新执行。符合用户兴趣度的模式将传输给知识输出模块。

5)知识输出模块

该模块完成对数据挖掘出的模式进行翻译和解释,以人们易于理解的方式提供给真正渴望知识的决策者使用。它是用户与数据挖掘系统交流的桥梁,用户可以通过这个界面与挖掘系统直接交互,制定数据挖掘任务,提供信息,帮助挖掘聚焦,根据数据挖掘的各个步骤结果进行探索式的数据挖掘。

从上述关于数据挖掘系统的讨论来看,它所有功能的完全实现绝非一件简单的事情,正因为如此,目前市场上出现的很多数据挖掘系统并不是严格意义上的这类系统。有些可能是一个机器学习系统,或是一个统计分析工具,或是一个实验性系统原型等。然而如果一个系统仅能执行一些数据或信息检索任务,包括执行一些求和运算或推导型查询问答,也只能被称为信息检索系统或者演绎数据库系统。

2.3.4 医学数据挖掘常用技术

医学数据挖掘常用的技术有:决策树、神经网络、关联规则、OLAP联机规则、粗糙集、传统统计方法等。

1)决策树

决策树(decision tree)是一个类似于流程图的树结构,是一种用来表示人们为了作出某一个决策而进行的一系列判断过程的树形图,这种方法用于表现“在什么条件下会得到什么值”之类的规则。决策树代表着决策集的树形结构,最终结果是一棵树,其中每个内部节点表示在一个属性上的测试,每一个分枝代表一个测试输出,而每个树叶节点代表类或类分布。具体内容参见第12章“决策树”一节。

决策树在医疗卫生领域应用有:疾病诊断治疗,医院信息管理的决策支持,医疗卫生政策分析,卫生资源利用评价,基因与大分子序列的分析……

2)神经网络

人工神经网络(artificial neural network,ANN)是对人脑的某种程度上的抽象、简化和模仿。人工神经网络是由人工神经元相互连接组成的。每个神经元(或处理单元)是一个节点,节点间通过方向性连接组成网络结构。因此人工神经网络是一个数学模型,能用计算机来模拟人脑对信息进行处理。

img8

图2-2 神经网络模型结构图

在结构上,神经网络可以分为输入层(Input Layer)、隐含层(Hidden Layer)和输出层(Output Layer),每一层可以包含若干个节点(神经元),层与层之间的节点互相联系,如图2-2示。输入层只从外部环境接收信息,输入层不完成任何计算,它为下层传递信息。输出层生成最终结果,是网络发送给外部系统的,它的每一个神经元对应于一个响应变量。在一个神经网络中通常有两个或多个响应变量。在输入层和输出层之间,可能有一层或多层中间层,称为隐含层,因为它们不直接接触外部环境,对神经网络使用者来说不可见。隐含层完全用于分析,它们用函数联系输入层变量和输出层变量,使它能够更适应数据。隐含层的层数和每层节点的个数决定了神经网络的复杂度。

(1)人工神经网络的工作原理。建立一个成功的ANN需要对网络进行训练,也就是让网络从外界(输入端)接收信息,内部的权值随着训练过程的进行不断的调整,以求使结果达到最优,即使输出结果同实际情况的差异最小。这一过程所遵循的准则是通过学习使网络减少在下一次训练中犯同样的错误的可能性。现今有多种类型的神经网络,如BP(Back-Propagation)神经网络,Kohonen神经网络,Hopfield神经网络等数十种。由于各种具体的网络具有不同的特征,因此其工作方法也不相同,如医学中应用比较广泛的BP神经网络,也就是误差反向传播网络,其特点是在训练过程中将输出值同实际值的差异(误差)不断地反传给网络,调整各层之间的权重大小,以求使理论值与实际值的误差最小。此外还有感知器模型,主要用于一些医学的分类问题的研究。

(2)人工神经网络在医学中的应用。人工神经网络应用于临床诊断:在临床工作中医生大多是凭借一些临床资料(如患者症状,体征及各种检查结果),结合临床经验得出结论,而ANN在这一方面有较强的优势,它能够通过大量样本的学习最终获得诊断疾病的能力。第12章有许多经典案例。

人工神经网络应用于预后研究:临床医生往往根据某一个或几个预后因素估计患者的生存时间或预后,甚至凭经验来预测。ANN可以用来处理多因素资料甚至是因素和结果关系不甚明确的资料。Santos-Garcla等根据1994—1999年间因非小细胞肺癌而行肺切除的384份病例资料建立了一个预测手术后死亡的模型,再利用该网络对2000年2月至2001年12月间141例手术后的非小细胞肺癌患者作分析计算手术后的病死率,该模型对病死率预测的准确性可以达到98%。可以认为ANN较传统的统计学方法可以作出更加准确的预测。

人工神经网络应用于临床决策分析:ANN是一种非常有潜力的临床决策支持系统工具。ANN能够为每个患者“量体裁衣”地给出一个特定的预测值。

人工神经网络应用于医学信号分析处理:由于神经网络可以把专家知识结合进一个数学框架来完成提取特征和分类、识别等功能,而不需要任何对数据和噪声的先验统计假设,也不需要把专家知识和经验归纳成严密清晰的条文,因而在模式识别方面具有显著的优越性,被广泛应用于医学信号(如心电,脑电,肌电等)的分析和处理中,ANN对心电图的识别最为有效。应用神经网络识别心电信号大体有两种作法。一种是将整个心电波形输入到网络中去,经过样本学习,由网络进行识别。如Johns Hopkins大学的S.C.Lee就是采用二阶神经网络将整个心电信号直接输入的方法对正常心电,室性心动过速和室颤动心电信号进行识别诊断,经过54例患者的训练,对正常心电图和室性心动过速的诊断很成功,准确率几乎100%。另一种是先从心电波形中抽取特征量,再将这些特征量输入到网络中去进行识别。

ANN由于其可以对线性或非线性多变量在不设前提条件的情况下进行统计分析,同传统的统计方法需要被分析的变量符合一定的条件相比有其自身的优点。一个良好的ANN甚至在资料不太完整或有偏差的情况下也可以作出正确的预测。尽管ANN有诸多优点,但它目前仍不像传统的统计方法为人们所熟知和应用,随着ANN研究的深入,ANN必将得到临床工作者的认同和肯定,并为临床工作带来诸多便利。

3)关联规则

在两个或多个变量之间存在着某种规律性,就称其为关联(association)。关联规则(association rule)是指在同一事件中出现不同项的相关性。关联分析(association analysis)就是用于发现隐藏在大型数据集中的令人感兴趣的联系。所发现的联系可以用关联规则或者频繁项集的形式表示。关联规则挖掘就是从大量的数据中挖掘出描述数据项之间相互联系的有价值的有关知识。

应用关联规则的很常用的一个例子是关于有个购物篮的分析。表2-1中列出了某食品店收银台的顾客购物数据。表中每一行对应一次购买行为,左边一列是序号,右边一列是购买的物品。

表2-1 购物篮事务的例子

img9

从表中数据,可以提取如下规则:{尿布}→{啤酒}。说明许多购买尿布的顾客同时购买了啤酒,所以尿布和啤酒的销售之间存在着很强的联系。通过对沃尔玛连锁超市的数据进行分析后,研究人员发现,在有婴幼儿的家庭里,一般母亲会留在家中照顾孩子,年轻的父亲下班后经常去超市买婴幼儿尿布,其中有30%—40%的人同时也买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售量。关于关联规则挖掘的理论和方法,本书不作详细讨论,有兴趣的读者可以参考有关书籍。

关联规则在医学上的应用主要表现在以下几个方面。

(1)用于DNA序列间相似搜索与比较:在基因分析中一个重要的搜索问题是DNA序列中的相似搜索和比较。对分别来自带病和健康组织的基因序列进行比较以识别两类基因间的差异。通常在带病样本中出现的频度超过健康样本的序列,可认为是致病因素;另一方面,在健康样本中出现频度超出带病样本的序列,则认为是抗疾病因素。

(2)用于识别同时出现的基因序列:目前许多研究关注的是一个基因与另一个基因的比较。大部分疾病不是由单一基因引起的,而是基因组合共同作用的结果。关联分析方法可用于帮助确定在目标样本中同时出现的基因的种类,此类分析将有助于发现基因组和对基因间的交叉和联系的研究。

(3)在患者生理参数分析中的作用:生理参数数据是医学诊断最基本也是最主要的依据。例如上海同济大学附属医院冯波等人用关联分析研究糖尿病患者肌肉组织和脂肪组织含量与骨密度之间的联系,得出高肌肉和高脂肪组织含量可降低患者髋骨骨折危险性的结论。

(4)用于疾病相关因素分析:在病案信息库中存有大量关于患者病情和患者个人的信息,包括年龄,性别,居住地,职业,生活情况等,对数据库中的信息进行关联规则分析可以发现有意义的关系及模式,某种疾病的相关发病危险因素分析可以指导患者如何预防该疾病。

(5)用于疾病预测:确定某些疾病的发展模式,根据患者的病史和以往病例归纳出诊断,规则预测疾病的发展趋势,从而有针对性地预防疾病的发生。

4)OLAP联机规则

数据仓库中包含了大量的、有价值的历史数据,现代的信息应用需要方便的工具对其中的数据进行分析处理。OLAP(on-line analytical processing,即联机分析处理)可较好地实现数据汇总/聚集,建立多维度的分析,查询和报表,同时还提供切片、切块、钻取和旋转等数据分析功能,使人们从交互方式中获得信息并为预测业务发展提供辅助。OLAP的功能特征包括快速分析,共享性和多维特性。

OLAP的基本涵义及特性。

OLAP访问来自数据源(如数据仓库)经过聚合的多维数据集数据。利用OLAP技术,分析人员、管理人员或执行人员能够针对同一个主题,从多个角度对数据进行分析,从而快速、交互地得出决策支持的分析结论。OLAP技术核心是维的概念,因此,OLAP也被称为多维数据分析。OLAP技术主要是针对海量数据的查询,通常不对数据做修改。这种数据访问有别于OLTP(online transaction processing,在线事务处理)中对数据进行增删改操作。

“维”是OLAP的关键技术。“维”通常是指人们观察事物的角度,如时间,地理位置,产品等,多维性是OLAP的关键属性,OLAP系统能够提供对数据分析的多维视图和分析。OLAP能快速响应用户的查询请求,并实现数据的共享。

按照数据的存储结构基本上又分为MOLAP(多维multidimensional OLAP),ROLAP(关系relational OLAP)和HOLAP(混合hybrid OLAP)。

利用OLAP数据维的概念,不同的用户可以根据需要从不同的角度去分析同样的数据。切片和切块的概念就是其中的一个应用实例。选定多维数据集中的一个二维子集的动作称为切片,选定多维数据集的一个三维子集的动作称为切块。图2-3是对不同地区某疾病发病情况分析的切片、切块示意图。

img10

图2-3 数据挖掘中的切片和切块示意图

5)粗糙集理论

粗糙集是波兰理工大学Z.Pawlak教授提出用来研究不完整数据,不精确知识的表达、学习,归纳等的一套理论。从数学的角度看,粗糙集是研究集合的;从编程的角度看,粗糙集的研究对象是一些特殊的矩阵;从人工智能的角度来看,粗糙集研究的是决策表。

粗糙集是建立在分类机制的基础上,它将分类理解成为在特定空间上的等价关系,而等价关系构成了对该空间的划分。粗糙集理论的主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来(近似)刻画。有关粗糙集和OLAP理论及其在数据挖掘中的应用读者可阅读附录的参考文献。

6)传统统计方法

数据挖掘来源于统计分析,而又不同于统计分析。数据挖掘不是为了替代传统的统计分析技术,相反,数据挖掘是统计分析方法的扩展和延伸。大多数的统计分析技术都基于完善的数学理论和高超的技巧,其预测的准确程度还是令人满意的,但对于使用者的知识要求比较高。而随着计算机能力的不断发展,数据挖掘可以利用相对简单和固定程序完成同样的功能。新的计算算法的产生如神经网络、决策树使人们不需了解到其内部复杂的原理也可以通过这些方法获得良好的分析和预测效果。

由于数据挖掘和统计分析根深蒂固的联系,通常的数据挖掘工具都能够通过可选件或自身提供统计分析功能。这些功能对于数据挖掘的前期数据探索和数据挖掘之后对数据进行总结和分析都是十分必要的。统计分析所提供的诸如方差分析、假设检验、相关性分析、线性预测、时间序列分析等功能都有助于数据挖掘前期对数据进行探索,发现数据挖掘的题目,找出数据挖掘的目标,确定数据挖掘所需涉及的变量,对数据源进行抽样等等。所有这些前期工作对数据挖掘的效果产生重大影响。而数据挖掘的结果也需要统计分析的描述功能(最大值、最小值、平均值、方差、四分位、个数、概率分配)进行具体描述,使数据挖掘的结果能够被用户了解。因此,统计分析和数据挖掘是相辅相成的过程,两者的合理配合是数据挖掘成功的重要条件。

事实上,传统的统计方法也是一个非常主要的数据挖掘方法。诸如方差分析、假设检验、相关性分析、线性预测、时间序列分析等方法依然在医学数据挖掘中发挥着重要的作用。本节仅以时间序列数据挖掘为例加以说明。

随着信息技术的飞速发展,数据库应用的规模、范围和深度不断扩大,计算机系统中存储的带有时间序列性质的信息越来越多,例如医院信息系统中积累了多年的门诊人次、住院人次、药品消耗量等与时间序列有关的资料。在时间序列问题中,对序列的分析通常是以时间为轴进行分析的。具体又可以分为以下4种方法:①时间序列数据挖掘;②时间序列的趋势分析;③时间序列的相似性搜索;④时间序列模式和周期模式挖掘。

时间序列预测模型已在医学中广泛应用。比如季节性时间序列医院月门诊量的预测研究可以准确地把握今后一段时间门诊、急诊动向。因此国内在该领域的研究比较活跃,提出了若干预测算法。图是其中一种预测模拟结果(图2-4)。

img11

图2-4 医院门诊量预测的模拟结果

问题与讨论

(1)举例说明你所理解的信息概念。举例说明信息的特征。说明信息和数据的关系。

(2)就你所知道的实例说明医学信息所涵盖的范围。

(3)举例说明你所理解的医学信息管理的内容和功能。

(4)当你第一次听到“数据挖掘”的说法时,你是怎么猜想它的实际含义的?通过本章学习,你对于“数据挖掘”又有了怎样的新的理解?

(冯正永)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈