医学信息资源是指科技创新主体为保证医学研究顺利开展而收集、整理与储存的各种知识、情报和资源。自从人类基因组计划启动以来,生物医学的“大数据”特征日渐明显,文献量约占整个科技文献资源的25%,网络信息资源占因特网信息资源总量的30%左右,居自然科学的各学科之首。医学信息资源的共享是指利用信息技术,对医学信息资源进行整合、开发和利用的综合性活动,主要包括两方面内容:医学信息资源的共享建设和医学信息资源的共享管理。医学信息资源共享既是帮助科技人员掌握前沿动态变化的主要工具,也是加强合作研究的切入点,对研究型医院的科研工作具有重要的支撑作用。
(一)加强医学信息资源的共享建设
医学信息资源主要分为三种类型:①文献数据库,主要是发表的论文、论著、专利等,例如PubMed数据库、美国专利数据库、中国期刊题录数据库等全文型文献数据库等。②数值型或事实型数据库,主要包括基因库、核酸序列、蛋白质结构等分子生物学数据库等。如美国GenBank、查询药理学及药品的RxList、drugs.com等检索系统和网站。③多媒体数据库,包括各种医学图谱库、医学影像库、病理切片库以及化学物质或药物结构数据库等,如美国国立卫生研究院的人体数字图像数据库、哈佛医学院和麻省理工学院开发的“全脑图谱”等。
1.丰富文献资料数据库 购买数据库和与外部合作共享是建设文献资料数据库的主要方式。近年来,医学数据库大量涌现,美国网上数据库已达到l万多个,我国网上数据库也有1000多个。但数据库质量越高,每年使用费越昂贵。因此要广泛征求专家意见,选择最具影响力和代表性的数据库。另外,建设网络环境下的虚拟医学图书馆,并加强与国家和地方科技文献资源共享平台的联系与沟通是研究型医院拓展文献来源渠道和提高共享的有效途径。现在,我国已建立了以国家图书馆文献信息资源共建系统、国家科技图书文献中心(NSTL)、教育部211工程中国高等教育文献保障中心(CALIS)、中国科学院国家数字图书馆(CSDL)等为核心的国家层面的科技文献资源共享体系。在地方上,全国大多数省份都建立了区域性的科技文献资源共享平台。其中,国家科技图书文献中心是2000年6月组建的一个虚拟科技文献信息服务机构,目前是我国最大的科技文献资源共享服务体系。该中心拥有各类科技期刊15000种,建立了40多个数据库,4000多万条数据信息。其门户网站可以提供统一检索、全文传递、在线浏览、参考咨询等服务。另外,该中心还建立了成都、兰州、昆明、西安、哈尔滨、南京、杭州和郑州等镜像站点。作为研究型医院,要充分利用好国家和地方的科技文献共享资源,为研究型医院科研工作打下良好的基础。
2.统一电子病历数据库 电子病历是由电子化方式记录患者全部健康档案的多媒体资料。构建标准统一的临床病历数据库,对进行流行病学统计、开展临床大规模前瞻性和回顾性的研究至关重要。美国总统奥巴马在美国科学院年会上的演讲中说:“电子医疗记录有着数以亿计的匿名数据,这为医学研究人员帮助人们更加深入地了解和认识疾病提供了难得的机会。”为提高医疗服务质量和满足医学研究需求,英国实施了国家卫生健康IT计划,为每一位公民建立了唯一的终身制电子病历。该系统拥有大量人口健康数据,有能力进行患者的终身随访,这为英国的临床研究提供了得天独厚的优势。而我国发展相对滞后,各医院数据标准不同,不同系统存储的信息也不同。据国家卫生部统计,目前全国现有医疗软件生产供应商约600家。其中,医院信息系统生产商约380家。因此,推动临床数据标准化需要卫生主管部门制定统一的标准和规范,并实施强制性推广。研究型医院应主动参与国家政府卫生部门对电子病历标准化的制定和实施,避免各成系统,减少资源浪费,促进转化医学整体发展。
大型医院每天要存储超过30GB的数据,而且医院内部由于各专业之间变异很大,因此,电子病历数据的标准化还需要一套完善的技术方法。近年来,有许多国际组织和机构已研发出能够使电子病历数据标准化的模型,例如通用信息架构(common data model,CDM),使临床医生通过临床数据分析开展研究成为可能。1995年,台湾基于CDM基础之上建立了健康保险数据库,覆盖99%民众健康信息。自2005年,该数据库开放使用后,显著促进了台湾临床研究的开展,基于该数据库发表SCI论文数逐年增加(图5-15)。
图5-15 台湾地区基于健康保险数据库的SCI论文发表情况
3.建设生物标本数据库 生物样本库(biobank)是一种集中保存各种人类生物材料(包括患者组织、血浆、血清、白细胞、尿液、DNA、RNA、粪便、骨髓等),用于疾病临床治疗和生命科学研究的生物应用系统。美国研究者利用生物样本库对一名“腓骨肌萎缩症”病人和他的亲属进行全基因组测序和对比分析,精确地发现了致病基因和发生突变的位点,为该疾病的预防提了可靠的遗传学依据。因此,建立针对我国疾病流行特点和符合我国国情的生物样本库是研究型开展转化医学研究的重要基础条件。
“十二五”期间,北京协和医院作为牵头单位,与北京肿瘤医院、中国医学科学院肿瘤医院、积水潭医院、天坛医院、阜外医院、解放军总医院、天津肿瘤医院和上海第六人民医院等其他8家单位共同建立了国家人类重大疾病生物样本资源库,目前已成功实现了生物样本库联网集中化管理。这对获取高质量肿瘤组织样本和临床研究资料,培养规范化诊疗的多中心临床队伍,提升创新能力和参与国际竞争具有重要意义。2012年起,北京大学人民医院以临床路径和结构化电子病历系统为核心,整合生物样本库和随访管理系统,形成了“临床医学研究三联体”,开展了遗传学、细胞生物学、分子生物学、基因组学和蛋白组学等领域的研究,并获得863计划、国家自然基金、北京市科技计划等多个项目的支持,为转化医学研究提供良好的资源支持。
(二)完善医学信息资源的共享管理
1.实现信息共享与知识产权保护的有机统一 自人类基因组草图公布后,人类遗传数据在生命科学研究中发挥着越来越重要的作用。由此,一些科学家团体和机构主张开放和共享人类的遗传数据。例如,单核苷酸多态性国际联盟成员通过网络向研究者开放已确认和绘制的150万个单核苷酸多态性图谱。然而,由于生命科学研究成果蕴含的巨大商业价值,有不少研究者通过申请专利来保护自己的成果。据估计,大约有20%人类基因组已被申请专利。“没有合法的垄断就不会有足够的数据生产出来,但有了合法的垄断又不会有太多的数据被使用”。矛盾由此而生。中国科学院2004年8月公布的《科学数据库数据共享办法(试行)》中规定,科学数据主要分为3个等级:秘密、保护、公开。科学数据共享只针对“保护”级数据和“公开”级数据,对“秘密”级数据,应遵照《中华人民共和国保守国家秘密法》、《中华人民共和国科学技术保密规定》等规定执行。但对于研究型医院的科研实践来说,仅仅依靠这些规定,显然解决不了矛盾。只有在开放共享模式与知识产权保护二者之间实现弹性和动态平衡,形成数据共享与知识产权保护的有机结合,才能实现科学数据的不断创新和有效传播。
(1)对研究者给予一定期限的发表专有权。以NIH的数据共享政策为例,为便于研究者访问NIH资助的全基因组关联研究数据集(GWAS),NIH在美国国家生物技术中心(NCBI)设立了中央数据库,让有贡献的研究者拥有1年的成果专有发表权。在该期限内,其他访问者可以对该数据集进行分析,但是不能将结果发表。
(2)通过“数据获取协议”进行约定。例如,国际人类基因组单体型图计划(HapMap计划)通过与申请者签署“按键约束(Click-wrap)”的网络协议来确保数据使用。该协议不仅针对数据的获取和使用,还对使用数据后得到的成果进行约定,包括研究成果是否可以申请知识产权保护,以及研究成果是否回馈给数据提供机构等。该协议并不阻碍研究者申请知识产权保护,只需要该计划产生的数据仍能被公众获取和使用。爱沙尼亚生物银行和加拿大CARTaGENE生物银行也通过《样本和数据获取访问协议》,要求研究者提交利用其数据研究获得的结果。
2.重视个人数据隐私的保护 美国国立卫生研究院是目前世界上最大的基因数据库拥有者之一。2008年,有研究者针对NIH在网上公布的数百人的单核苷酸多态性(SNP)数据发表文章指出,他们可以根据某个人的DNA样本,从公共DNA数据库中找到这个人的SNP结果,因此NIH的行为侵犯了个人隐私。结果,NIH被迫从公共网站上撤下了这些数据。现在,只有通过严格认证的研究者才能从NIH的网站下载这些数据。这是由于信息资源共享影响到个人隐私权的典型案例。随着医学研究和临床诊疗发展的需要,研究型医院建立了各种类型的数据库,其中包含了患者大量的个人信息和与疾病相关的信息。所以,研究型医院在不断强化医学信息资源共享的同时,要从制度和措施方面充分注重保护患者的隐私权,保证科研活动在法律许可的范围内进行。例如,美国人类基因学会提出的“隐私匿名化”原则,即从最初收集和识别的生物学资料中不可逆地除去所有识别特征,从而无法联系生物学资料和资料来源,该原则得到了研究界的广泛认同和实施。例如,人类基因组计划在DNA样本取样时,将匿名捐献者的DNA样本混合,从而减少了个人基因组被揭露的可能性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。