首页 理论教育 医学数据挖掘及其应用

医学数据挖掘及其应用

时间:2023-05-09 理论教育 版权反馈
【摘要】:病例和病案的有限性使医学数据库不可能对任何一种疾病信息都能全面地反映,表现为医学信息的不完全性。由于DNA分析研究是当前生物医学领域最热门的课题之一,研究报道也最多,所以我们下面详细介绍一下数据挖掘技术在这方面的应用和它们的成果。时间序列数据挖掘过程中经常采用的相似搜索方法是大多数从事DNA分析的研究工作者主要工作手段。

§7.2 医学数据挖掘及其应用

一、医学数据挖掘的意义

计算机信息管理系统在医疗机构的广泛应用,促进了医学信息的数字化;同时,电子病历和病案的大量应用、医疗设备和仪器的数字化,使得医院数据库的信息容量不断地膨胀。这些宝贵的医学信息资源对于疾病的诊断、治疗和医学研究都是非常有价值的。然而,目前大多数医院对数据库的处理仅限数据的录入、修改、查询、删除等平凡过程,属于医学据库的低端操作,缺乏数据的集成和分析,更谈不上医学决策和知识的自动获取。如何利用这些海量的数信息资源来为疾病的诊断和治疗提供科学的决策,总结各种医治方案的疗效,更好地为医院的决策管理、医疗、科研和教学服务,已越来越为人们关注。另一方面,随着人们生活水平的提高、保健意识的增强以及我国医疗体制改革的深入,基于计算机技术、通信技术的远程医疗和社区医疗,已经逐渐成为各大医院的另一个潜在市场。如何对医学数据库进行自提升和处理,使其更好地为远程医疗和社区医疗提供全面的、准确的诊断决策和保健措施,已成为促进医院发展、提高服务质量而必须解决的新问题。正是在这种背景下,医学数据挖掘应运而生。

医院信息涵盖了医疗过程和医院活动的全部数据资源,包括临床医疗信息和医院管理信息。我们感兴趣的主要是临床医疗信息,只有这部分数据才能反映医学信息的独特之处,医学数据挖掘的主要对象也是针对这部分信息资源的。医学信息具有以下特点:

(1)模式的多态性。医学信息包括纯数据(如体征参数、化验结果)、信号(如肌电信号、脑电信号等)、图像(B超、CT等医学成像设备的检测结果)、文字(如病人的身份记录、症状描述、检测和诊断结果的文字表述),以及用于科普、咨询的动画、语音和视频信息。医学信息的多模式特性是它区分其他领域数据的最显著特征,这种多属性模式并存加大了医学数据挖掘的难度。

(2)不完整性。病例和病案的有限性使医学数据库不可能对任何一种疾病信息都能全面地反映,表现为医学信息的不完全性。同时,许多医学信息的表达、记录本身就具有不确定和模糊性的特点。疾病信息所体现出的客观不完整和描述疾病的主观不确切.形成了医学信息的不完整性。

(3)时间性。医学检测的波形、图像都是时间的函数;还有一部分医学信息,比如病人的身份记录等静态数据,虽然不带有时序性,但都是对病人在某一时刻医疗活动的记录。

(4)冗余性。医学数据库是一个庞大的数据资源,每天都会有大量相同的或部分相同的信息存储在其中。比如,对干某些疾病,病人所表现的症状、化验的结果、采取的治疗措施都可能完全一样。

医学信息的所具有的这些特点,使得医学数据挖掘与普通的数据挖掘存在较大的差异,决定了医学数据挖掘的特殊性。

二、医学数据挖掘与DNA分析

生命科学近年来获得突破性进展,随着基因组研究的进展与现代生物技术的发展,积累了大量的各种生物数据,提供了揭开生命奥秘的数据基础。生物数据种类丰富,高通量,维数高,本质上具有异质性与网络性,远远超出传统的分析方法的能力和速度,生物数据的分析成为生物研究的瓶颈,其处理、挖掘、分析和理解日益迫切。生物数据数据挖掘等决策支持技术因其在大规模数据处理方面的卓越能力而在其中占据越来越重要的地位。

DNA在遗传学研究中的重要作用已经众所周知,但是直到上个世纪最后十年以前,这方面的研究还是局限在定性分析这一阶段。随着分子生物技术的突破和高性能计算机的问世使得DNA研究开始进入到了定量化的水平。到现在DNA测序的技术已经非常成熟了,剩下的工作只是时间问题,只要对这些数据进行合理解释就能构建联结微观结构和宏观的生物性状的桥梁,虽然很多研究工作者在这方面进行了很多尝试,但是关于基因识别和基因表达的研究进展还不是太理想,原因在于基因的数目太庞大了,一个基因又是由成百个核苷构成,而且很多生物性状不仅仅是由一个基因决定的。所有这些因素造成了这方面研究的困难重重。数据挖掘理论中有许多有意义的序列模式分析和相似检索技术,因此数据挖掘技术被认为是DNA分析中的强有力工具,研究者希望能通过该技术从已经测得的基因数据库中找出导致各种疾病的特定基因序列模式。由于DNA分析研究是当前生物医学领域最热门的课题之一,研究报道也最多,所以我们下面详细介绍一下数据挖掘技术在这方面的应用和它们的成果。

1.异构、分布式基因数据库的语义集成

由于广泛多样的DNA数据高度分散,随机地生成与使用,对这种异构和广泛分布的基因数据库的语义集成就成为一项重要任务,以便于对DNA数据库进行系统而协同的分析。这促进了集成式数据库和分布式联盟数据库的开发,用于存储和管理原始的和导出的基因数据。数据挖掘中的数据清理和数据集成方法将有助于基因数据集成和用于基因数据分析的数据库的构建。

2.DNA序列间相似搜索和比较

时间序列数据挖掘过程中经常采用的相似搜索方法是大多数从事DNA分析的研究工作者主要工作手段。首先从数据库中检索出样本,构造由患者的基因序列组和健康组织的基因序列构成的对照组,通过神经网络、频度统计等人工智能技术对两者进行比较以识别出两类样本间的主要差异或找到每一类中频繁出现的模式。通常,在带病样本中出现频度超出健康样本的序列可以认为是导致疾病的基因因素;另一方面,在健康样本中出现频度超出带病样本的序列,可以认为是抗疾病的因素。虽然基因分析需要相似搜索,但采用的具体技术与普通时间序列分析有很大的差异,常规的数据变换方法如伸缩、规范化、时频窗等对基因数据而言是无效的。因为基因数据是非数字的,其内部的不同种类的核苷间的连锁互换等结构对基因功能表达有着特殊的重要意义。许多研究报道表明,频繁序列模式分析在基因序列相似与非相似分析中可能会比较有效。

3.关联分析

基因表达是研究热点,尤其是那些多基因联合控制的性状受到了人们更多的关注,因为大部分致病因素是由单一基因引起的,而是由多基因组合起来共同作用的结果。关联分析方法可用于帮助确定在目标样本中同时出现的基因种类。有报道表明,此类分析将有助于基因组合和对基因间的连锁互换现象的研究。

4.演化分析

人体生理学研究表明,引起一种疾病的基因可能不止一个,不过不同基因可能在疾病的不同阶段起作用。如果能找到控制疾病发展的不同阶段的遗传因子,就有可能开发针对疾病不同阶段的治疗药物,从而取得更为有效的治疗效果,这也是国外许多生物制药公司资助有关基因分析研究项目的初衷。

5.可视化工具和遗传数据分析

基因的复杂结构和序列模式通常可以由各种可视化工具以图、树、晶格和链的形式展现。这种可视化的结构和模式方便了模式理解、知识发现和数据交换,所以国外有许多工作者也在从事这方面研究。

三、医学数据挖掘与医学影像数据分析

由于PACS系统的发展和使用,使得医院有可能将来自不同设备的医学影像进行集中、统一的管理和使用。正是由于PACS系统的投入使用,使得医学影像数据出现了爆炸性增长,为了解决现阶段医院中逐渐显露的“数据丰富但信息缺乏”这一矛盾,国内外很多学者已经在这方面作了很多工作。

1.影响增强和边缘提取

利用数据挖掘理论中各种数据预处理技术去除或降低图像噪声影响,提高目标影像质量或对目标组织进行边缘提取。

2.组织定征和概念描述

通过对目标器官或组织进行概念描述并概括这类对象的有关特征,从而获得或验证有关参数的动态范围。目前,这类研究还刚开始。

3.医学影像管理与检索

随着数据库技术的引入和DICOM标准的建立,“DICOM设备(影像设备)+PACS工作站+DBMS”这一方案基本上解决了医学影像数据的存储管理问题,但是影像的检索始终是研究热点。这个问题目前主要有两类解决方案:(1)基于描述的检索系统,即在影像存储的同时建立有关病人病历、目标组织或器官、采集设备等信息的标引,日后使用DBMS进行管理,可以通过常规的结构化查询间接实现基于内容的医学影像检索。这也是DICOM标准和目前几乎所有的PACS系统的主要功能;(2)基于内容的检索系统,主要思路是从影像中提取信息,通过数据简约和投影等处理得到有关特征向量或特征标识,将之于已知对象进行比较或通过模糊神经网络、决策树等算法实现智能识别,但是对于复杂的医学影像不仅计算量极大而且效果也不太理想,目前尚处于实验室研究阶段。

四、医学数据挖掘与临床应用

生理参数数据是医学诊断最基本也是最主要的依据,这方面的数据挖掘研究一直是热点。随着计算机技术和电子监护技术的发展,人们渴望从大量的监护数据中获得更多的指示,从而帮助人们提高诊医学规律,探索人体生理奥秘。数据挖掘技术善于从缺乏先验信息的海量数据中发现隐含的、有意义的知识,预测未来趋势及行为,做出前瞻性的基于知识的决策。正是这种优势使得数据挖掘技术在生理参数监护分析的研究中被广泛地采用并取得了许多有价值的成果。例如人们对病房的微生物学数据进行分析,发现了感染和抗药性模式上的变化;还有人对医院感染和卫生检测数据进行数据挖掘研究。

在药学和病理学的研究和开发方面,数据挖掘也具有广阔的应用前景并取得了较为突出的成果。例如利用趋势分析筛选药物,将某种药物在一定时期内的反应收集起来加以分析。在大型化学数据库中自动寻找药效基团,利用神经网络技术对世界卫生组织的药物副作用数据库的200万条报告进行数据挖掘,发现了药物间的相互作用。在病理学研究中,有人提出采用数据挖掘技术对显微标本中获得的大量数据(如计数、大小、形状特点、生理学评估、质地等数据)进行分析,总结出其中的关键性指标;还可以对大分子及其化合物的电子显微镜三维致密重建图形进行数据挖掘分析。

另外,数据挖掘在关联规则中的成功应用极具价值。雷诺氏病在医学上是一种治疗方法和病因都未知的疾病,有文献记载该病患者血液中有某种异常,如血液粘度升高。而又在食品领域中发现食用鱼油能纠正这种异常,例如,它可以降低血液粘度。因此,把这两种信息联系起来得出食用鱼油应该对雷诺氏病患者有帮助的假设,后来证实确实如此。

对临床数据库中进行数据分析还可以发现疾病趋势及健康因素关联模式。设有如表7.1所示的一个小型医疗数据库,其中LAD%和RCA%分别表示由心脏的特殊动脉(左前下降动脉和右冠状动脉)引起心脏病的百分比。运用改进的Apriori算法,就可以挖掘出如表7.2所示的医疗关联规则。其中规则1表示在所研究的病人中有40%(支持度)在70岁以上、有吸烟习惯且都是男性,他们由心脏的右冠状动脉引起心脏病的百分比超过50%的可能性是100%(置信度);规则2即表示在所研究的病人中有20%(支持度)在70岁以下、有吸烟习惯且都是女性,她们由心脏的左前下降动脉引起心脏病的百分比超过70%的可能性是100%(置信度)。

表7.1 小型医疗数据库

img139

表7.2 医疗关联规则

img140

医学数据挖掘是计算机技术、人工智能、统计学等与现代医疗相结合的产物,也是提高医疗服务质量和医院管理水平的需要,具有广阔的应用前景。医学数据挖掘是面向整个医学数据库或医学信息集合提供知识和决策,它是医疗决策支持系统的重要组成部分。由于医学信息自身具有的特殊性和复杂性,医学数据挖掘在挖掘对象的广泛性、挖掘算法的高效性和鲁棒性、提供知识或决策的准确性方面有着更高的要求。在医学数据挖掘方法中,人工神经网络、模糊逻辑、进化计算、粗集理论和支持向量机等计算智能方法显示出了独特的优越性,已经在医学信息处理和医学数据挖掘中得到了初步的应用。医学数据挖掘是一门涉及面广、技术难度大的新兴交叉学科,需要从事智能信息处理、计算机、应用数学的科研人员与医务工作者进行通力的合作,力争在多属性医学信息的融合、挖掘算法的高效性和准确性等关键技术方面有所突破。随着理论研究的深入和进一步的实践摸索,医学数据挖掘在疾病的诊断和治疗、医学科研与教学以及医院的管理等方面将会发挥巨大的作用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈