药物组合治疗可以提高复杂疾病的治疗效果并降低不良反应,被认为是一种非常有前景的治疗策略。然而,要考虑药物之间所有的可能匹配、实验筛选新的药物组合是不切实际的。随着各种组学技术的发展,积累了大量的生物学数据,运用生物信息学和计算工具,挖掘并整合数据中相互关联的信息,从大量数据中筛选有效的药物组合恰逢其时,既符合成本效益又节约时间、人力。近年来,研究者不断地开发基于算法和基于网络的计算模型,用于预测药物组合。
本研究提出了一个新的计算方法,通过整合药物作用下的基因芯片数据、药物作用下的子网络以及现有的信号通路信息,构建了一个机器学习模型用于预测药物组合。我们认为药物作用引起细胞网络的局部改变,进而发挥药效并产生不良反应。孤立基因的表达水平改变并不能影响细胞系统的表型改变,相互联系的孤立基因组成的基因网络,更能代表药物作用下细胞系统的应答作用。由于数据库中缺乏直接可以使用的药物组合的基因芯片数据,我们首先使用单独用药的基因表达数据,预测药物组合作用下的基因表达变化率。根据用药前后基因表达变化率的不同,计算现有PPI网络的权重,用j Active Modules筛选药物作用下的最优子网。最优子网中的基因被认为是药物作用下受到影响的基因。以药物组合及单独用药下最优子网中的基因在信号通路中出现的频率作为特征向量,优化特征并构建模型。“留一法”交叉验证结果显示,本章模型能够较好地实现药物组合与负样本的分类。通过特征筛选和案例分析,初步探索了不同药物之间发生组合的内在联系,进一步印证了模型的有效性。相信本章提出的模型能够有助于缩小药物组合的搜索范围,为现有药物的使用提供一条新途径,指导进一步实验研究。
9.3.1 数据集与数据预处理
9.3.1.1 基因表达数据及预处理
小分子化合物作用(干扰)下的基因表达数据从连通图数据库Connectivity Map(build02)(http://www.broadinstitute.org/cmap/)下载,共包含1309种小分子化合物的6100张基因表达谱。这些小分子化合物作用到5种不同的人类癌细胞系,分别是MCF7、PC3、SKMEL5、HL60和ss MCF7。作用时间较短,集中在6~12h。每种小分子化合物作用(干扰)下的基因表达谱都有相应的对照组表达谱。每个图谱文件的所有探针集合由非参数有序列表表示。连通图数据库搜集的芯片数据来自3个基因芯片平台,分别是HG U133A、HT_HG U133A和HT_HG U133A_EA。
所有的基因表达数据利用RMA(Robust Multi-array Averaging)算法进行标准化处理,并且将探针的名称转化为对应基因的名称,用genesymbol表示。对于同一基因对应多个探针的情况,利用多个探针表达值的平均值表示对应基因的表达值。最终得到3个基因芯片平台的共有基因——11023个基因的表达谱数据。
9.3.1.2 药物组合数据库及药物对筛选
药物组合数据来自DCDB(Drug Combination Database)数据库,这个数据库从文献中搜集了有效的药物组合。药物的靶标蛋白和治疗学信息来自Drug Bank数据库,不明确的靶标蛋白已舍弃,没有ATC注释信息或靶标信息的药物组合也已舍弃,最终收集到444个有效的药物组合,其中包括182个FDA认证的药物组合,54个临床使用的药物组合,以及208个临床前阶段的药物组合。
结合9.3.3.1的基因表达数据,发现DCDB数据库的444个药物组合,在连通图数据库中存在不少于3张药物作用(干扰)下的基因表达数据,并且是两个药物的药物组合,即药物对组合的数据,共有76组(见表9-7)。
表9-7 筛选出的76对药物组合信息
(续表)
(续表)
(续表)
9.3.1.3 蛋白相互作用数据
人类的蛋白蛋白相互作用数据,即人类的PPI网络,从HPRD(Human Pro-tein Reference Database)数据库(http://www.hprd.org/)下载,去除其中的自身相互作用和重复相互作用,共得到37039个蛋白 蛋白相互作用关系,涉及9465个蛋白。将3个芯片平台下得到的表达数据映射到人类的蛋白 蛋白相互作用网络中,最终得到7210个共同拥有的蛋白(基因)作为后续研究对象。
9.3.1.4 代谢通路数据
代谢通路数据选用基因集富集分析(genesetenrichmentanalysis,GSEA)工具提供的KEGG的通路数据库。根据KEGG的通路信息,GSEA共包含186个基因集分类,详细信息可从http://www.broadinstitute.org/gsea/msigdb/collec-tions.jsp#C2下载。
9.3.2 模型构建
9.3.2.1 预测组合药物的基因表达值
由于数据库中缺乏直接可以使用的药物组合基因芯片数据,所以首先使用单独用药的基因表达数据,预测组合用药的基因表达值。使用方法已由实验室前期开发。在多个药物干扰作用下,第i个基因的表达值可以从数值上被描述为多个药物剂量的函数,例如fi(y1,y2,…,yn),yj表示第j个药物的剂量,j∈{1, 2,…,n}。根据泰勒展开式,如果存在yj,j∈{1,2,…,n}接近0,那么fi(y1, y2,…,yn)可以近似地表示为
式中:fi(0,0,…,0)表示第i个基因在没有药物干扰时的基因表达值,也就是控制组(control)样本的表达数据;∂fi/∂yj表示fi对yj的偏导数。因此,在n个药物联合作用时,用药组第i个基因的表达值相对于控制组第i个基因的表达值的变化比率可以表示为
式中:fi(0,0,…,0)≠0。然而当第j个药物单独用药(一个药物单独用药)时, yj=dj,dj表示第j个药物的使用剂量,第i个基因相对控制组的表达值变化比率为
值得注意的是,上述基因表达值变化比率的定义是基于假设所有的实验从相同的初始值开始,即所有控制组的fi(0,0,…,0)是一致的。当然,这种情况在生物学实验中是无法保证的。一般来说,每一个用药组(干扰组)都对应着自己的控制组。因此,我们近似地表示第i个基因的表达值变化比率:
式中:T为n个药物联合使用时第i个基因的表达值;(y1,y2,…,yn)表示n个药物联合使用的剂量矢量;C表示第i个基因在控制组的基因表达值。近似地,Tj表示第i个基因在第j个药物单独用药时的基因表达值,dj表示第j个药物单独用药的剂量,Cj表示相应控制组的基因表达值。显然,式(9-5)利用基因表达值的变化比率,简化了不一致的初始条件。
另一方面,当多个药物同时诱导或抑制第i个基因表达时,饱和度或称非线性影响应当被考虑。因此,考虑到这种非线性影响,公式(9-5)应当修正,用药组相对于控制组的第i个基因表达值的变化比率可以作如下修正:
在这种计算框架下,可以基于药物独立作用时的基因表达数据,预测多个药物组合干扰下的基因表达值。
9.3.2.2 确定药物影响下的最优子网络
药物干扰引起细胞网络的局部改变,进而发挥药效并产生不良反应。孤立基因的表达水平改变并不能引起细胞系统的表型改变。我们认为,相互联系的孤立基因组成的基因网络,更能代表药物作用下细胞系统的应答作用。换句话说,药物影响下的基因子网络,而不是孤立的基因,更能体现细胞系统对药物的应答作用。基于这种策略,使用j Active Modules方法确认了药物影响下的最优子网络。在我们的研究中,G=(V,E,W)代表一个分子相互作用网络,其中V代表网络中的分子(节点)的集合;E代表节点间相互关系的集合;W代表差异表达基因变化权重的集合。基因i的权重定义为
式中:Ti为基因i在用药组的基因表达值;Ci为基因i在对应控制组的基因表达值。药物影响下的子网路,可以看作是一个由用药前后显著差异的基因组成的子网络。结合网络中节点的权重,这一问题就转化为寻找最高分数的子网络,即最优子网络的问题。
本研究用j Active Modules方法分别计算药物组合以及药物单独作用下的最优子网络。现介绍如下。
1)j Active Modules理论及计算方法
(1)计算基础z-score:为了评估某个特定子网络的生物活性,j Active Modules从评估每个基因差异表达的显著性开始,使用软件VERA(Variabilityand ERror Assessment)提供的误差模型(errormodel)获得p值,即pi,代表每个基因i的表达改变的显著性。随后把每个pi转化成z得分,即zi=Φ-1(1-pi),其中Φ-1表示正态累积分布函数的逆(inverse normal CDF)。在随机数据中,p值服从0~1的均匀分布,而z得分服从标准正态分布,越小的p值对应越大的z得分。
为使包含k个基因的子网络A产生一个总的z得分,即z A,我们将子网络中所有基因的zi累加:
这样,不同大小的子网络在z A得分系统中具有可比性。如果zi独立地来自一个标准正态分布,z A也将服从一个与k独立的标准正态分布。z A越高,说明子网络的生物活性越高。
(2)根据背景分布校正z得分:为了正确地捕捉基因表达与网络拓扑结构之间的关系,j Active Modules需要确定一个子网络的得分z A是否高于一组随机基因的预期。随机基因一般取自相同的表达数据,但独立于子网络。用蒙特卡洛方法(Monte Carloapproach)随机抽取若干个大小为k(任意)的基因集合,分别计算它们的z A,然后使用这些z A为每个基因集合估算出均值μk和标准差σk。由于期望的均值和标准差是关于k的平滑函数,可以使用滑动窗口平均法减少蒙特卡洛估计中的噪声。使用蒙特卡洛估计,校正之后的子网络得分为
使用这种校正方法,能够确保随机子网络的μ=0,σ=1,得分s A=z A。
(3)多条件下的子网络得分:j Active Modules的打分系统可以扩展到适应多条件下测量基因表达的改变。在这种情况下,从一个p值组成的矩阵(每行表示一个基因,每列表示一种条件)以及相应的z得分开始,假定共有m种条件,用式(4-1)计算一个给定的子网络A的m种条件下的总得分(z A1,z A2,…,z Am)。然后将这些得分按照从高到低的顺序排列(z A(1),…,z A(j),…,z Am),使用二项式次序统计量(binomialorderstatistic)计算第j个得分的显著性r A(j):
如果令Pz=1-Φ(z A(j)),表示任何单一条件下的z得分大于z A(j)的概率,那么,
这种求和给出的概率,表示在m种条件中至少有j种条件的总得分在z A(j)以上,等价于z A(j)作为标准正态分布中第j个大的样本的概率。使用累积分布函数(CDF)的逆r A(j)=Φ-1(1-p A(j)),使z得分服从一个标准正态分布。此时调整为以排名为序,其中的最大值即为子网络的新得分:
考虑到排名1~j的条件下的子网络都具有生物活性,如同单一条件的情况,同样需要对背景分布进行校正:首先是用蒙特卡洛方法为随机抽取的若干个大小为k(任意)的基因集合计算rmaxA,并估算出均值μk和标准差σk;然后校正rmaxA,获得最终得分s A。
(4)用模拟退火方法搜索最高得分的子网络:上述方法可以为每个给定的子网络确定一个得分,但是还要解决如何在整个分子互作网络中找到最高得分的子网络。由于找到最高分数的连通子图是一个难以解决的问题,j Active Modules采用模拟退火方法(simulated annealing)处理这一问题。事实上,这种方法无法确保找到全网中最高分数的子网络,但是所有高得分的子网络都具有很强的生物价值,无论它是否是严格意义上的最高得分。
模拟退火的基本步骤:①初始化:初始温度T充分大,初始解状态Gw,Gw是网络G=(V,E)的一个子网络,作为算法迭代的起点,活跃或不活跃状态的概率都为1/2;②对i=1,…,N做第③至第⑥步;③随机选取并锁定一个节点v∈V,产生新解Gw;④重新计算当前活动子网络Gw的得分si;⑤如果si>si-1,则接受si作为新的当前解,否则以概率p=exp[(si-si-1)/T]接受si作为新的当前解;⑥如果满足终止条件,则输出当前解作为最优解,结束程序。终止条件通常取为连续若干个新解都没有被接受时终止算法。⑦T逐渐减少,且T>0,然后转至第②步。最终在温度T=0时“淬火”,此时历尽所有邻接的概率,达到局部的最大分数。模拟退火过程结束得到的最优子网络A,表示一个信号回路或调控回路,具有较高的生物学意义。
(5)改进的退火方法:j Active Modules随后又将退火方法扩展到同时搜索多个子网络Gw。同时随机选取并锁定多个节点可以极大地提高退火效率,因为锁定一个节点可能引起大量低分数的节点融入子网络。另一改进是利用网络中具有较高节点度的中心节点(hub)增加了退火效率。事实上,模拟退火方法在这类网络中的执行效果较差,因为加入一个中心节点进入子网络Gw,可能直接引起大量与之相连的低分数的节点融入子网络,结果导致无论中心节点自身的贡献大小,子网络的得分都很低。j Active Modules通过直接修正步骤③的运算处理了这一问题:当加入的节点度高于用户定义的参数dmin时,删掉得分较低的此节点的邻居节点。
2)j Active Modules插件使用方法
(1)从插件管理器中,安装j Active Modules。导入背景网络以及网络中节点权重的数据,节点权重可以是多种条件下的多组权重。然后在插件菜单下,选择j Ac-tive Modules,产生一个带有j Active Modules选项的控制面板。
(2)参数控制面板中,带有一些默认参数,对于初始分析十分有效。“Number of modules”表示需要显示的子网络数目,子网络按照得分从高到低排列。“Adjust score for size”表示对如下情况进行校正:随机选择时,推定模块越大,越有可能包含显著性p值的节点。“Regional scoring”表示如何计算一个给定模块的得分,可以不仅仅使用模块内的节点,模块的邻居节点也可以包含在内。这有助于确认网络中的活跃模块,模块中的节点可能有很多邻居节点,比如是网络的中心节点(hub)。考虑到转录因子与许多靶标的相互作用,尽管转录因子在网络中并不活跃,但是与它们毗邻的靶标很可能在随机选择时发生表达。因此,推荐选择“Regional scoring”选项。
(3)策略面板中,两种搜索策略可供选择,用来确认最优子网络。通过“Search”策略,对网络中的单个节点进行局部(贪婪)搜索。在局部搜索的每次迭代中,“Search Depth”决定了如何确认(例如定义最短路径)一个节点必须被考虑纳入到当前激活的模块中。“Max Depth”决定了如何确认节点必须被考虑纳入到最初的种子节点中。“Searchfrom Selected Nodes”缺省情况下,网络中的每个节点都发起一个单独的搜索。选择“Search from Selected Nodes”选项,表示从指定的节点发起搜索。通过“Anneal”策略,采用前述的模拟退火方法,可以同时发现网络中所有活跃的子网络(或称模块)。退火参数定义了模拟退火的过程。改进的退火方法可以修正模拟退火的搜索过程。
(4)点击按钮“Find Modules”执行程序。
(5)结果显示在结果面板上。窗口上显示出一个表格,其中每一行代表一个推定的子网络(或称模块),列出了相应的节点数目,z得分>3.0认为具有显著性。单击每一行,能够选中该子网络的相应节点,并显示在Cytoscape画布上。为了进一步清晰地显示该子网路,单击“Create Network”按钮,并重新排列节点。
(6)重复“Find Modules”步骤多次。根据不同的参数设置,j Active Modules依赖于随机取样,并不能保证每次执行程序都返回相同的结果。因此,有必要重复多次执行j Active Modules程序,以确保这一方法能够收敛。也就是说,有必要使确认的子网路(或称模块)在多次执行程序中有较好的再现性。解决这一问题的一种方法是将推定的子网络(或称模块)中的基因在GO生物过程中进行富集分析,因为我们总是期待模块中的所有基因都包含在相同的生物过程中。
9.3.2.3 药物组合分类模型的构建
1)特征向量与正负样本构建
在本研究中,我们仅研究两种药物的药物组合,即药物对组合。利用药物组合以及药物单独作用下最优子网络中的基因在不同代谢通路出现的频率作为特征构建二分类模型,预测药物对组合。基因集富集分析(gene set enrichment analysis, GSEA)提供了按照KEGGPATHWAY分类的基因集合,分成186个KEGG PATHWAY类别。将筛选出来的最优子网络中的基因与KEGGPATHWAY的分类基因取并集,作为研究对象。
根据j Active Modules为药物组合以及药物单独作用筛选出的最优子网络,将药物对组合(例如药物A和药物B组合)涉及的基因分为2种类型:药物组合AB作用下最优子网络中的基因作为AB发挥同效作用的基因,即overlap;药物A和药物B分别单独作用下最优子网络中的基因,排除AB最优子网中已出现的基因,作为A与B发挥异效作用的基因,即only。用每类基因在KEGGPATHWAY分类中出现的频率代表药物对A与B的特征,这样就为每个组合药物对构建了186×2=372个特征。
在本研究中,我们同样利用支持向量机构建分类模型。表9-7中筛选出的药物对组合作为分类模型的正样本来源,共包含101个独立药物。负样本的构建也至关重要,在构成正样本的101个独立药物中随机选择任意两个未在药物组合数据DCDB中出现的药物对,作为负样本。正负样本特征向量构建如图9-17所示。
图9-17 正负样本特征向量的构建
2)特征选择与模型简化:m RMR
我们为每个组合药物对构建的372个特征超出了分类模型的样本数目152,这样可能会造成过拟合现象。因此,在这里首先用最大关联与最小冗余方法(m RMR)进行特征选择,选择前100的特征,逐步递减特征(即前100个特征,前99个特征,……,前1个特征),构建简化的分类模型。
9.3.3 模型计算结果与分析
9.3.3.1 药物组合数据库
根据9.3.2的介绍,筛选出来的药物组合数据按照其主要适应证进行分类,其中癌症药物组合6对,占总药物组合的7.9%;心脑血管疾病(包括高血压)药物组合17对,占总药物组合的22.4%;抗感染(包括细菌感染、真菌感染以及病毒感染)药物组合28对,占总药物组合的36.8%;抗炎症药物组合3对,占总药物组合的3.9%;代谢疾病(包括Ⅱ型糖尿病和关节炎)药物组合8对,占总药物组合的10.5%;精神类疾病药物组合6对,占总药物组合的7.9%;其他药物组合8对,占总药物组合的10.5%(见表9-8和图9-18)。
表9-8 药物组合按治疗适应证的分布列表
图9-18 药物组合按治疗适应证的分布(彩图见第402页)
共包含76条边(药物组合)和101个点(药物)。粉色—癌症;橙色—心脑血管疾病;黄色—抗感染;绿色—抗炎症;浅蓝色—代谢性疾病;深蓝色—精神疾病;黑色—其他。
9.3.3.2 预测组合药物的基因表达及选择最优子网络
由于缺乏组合药物的基因表达数据,首先使用9.3.3.1节描述的方法和式(9-5)预测组合药物的基因表达变化比率,即T/C。以9.3.2.3节描述的现有PPI网络作为背景网络(共包含6837个基因节点和27348条边),根据式(9-7)为每个基因计算权重,然后使用j Active Modules插件为每个药物组合筛选得分最高的子网络,作为药物组合下的最优子网络,例如药物组合头孢他啶(ceftazidime)+丁胺卡那霉素(amikacin)(见图9-19)。
图9-19 癌症药物组合头孢他啶+丁胺卡那霉素
以预测的基因表达变化比率作为权重,用j Active Modules方法从现有PPI网络中选择出的最优子网络,共包含108个基因,得分10.769。
图9-20 负样本多柔比星+依托泊苷
以预测的基因表达变化比率作为权重,用j Active Mod-ules方法从现有PPI网络中选择出的最优子网络共包含117个基因,得分11.519。
构建负样本:在构成正样本的101个独立药物中,随机选择任意两个未在药物组合数据库DCDB中出现的药物对作为负样本。与正样本一样,负样本同样需要预测基因表达变化比率以及选择最优子网络,例如负样本组合多柔比星(doxoru-bicin)和依托泊苷(etoposide)(见图9-20)。
同样用式(9-7)计算独立药物作用下的基因权重,同样方法选择最优子网络,例如单独药物氨甲蝶呤(methotrexate)。
9.3.3.3 特征选择及“留一法”交叉验证结果
接下来,我们尝试以药物组合及单独用药下最优子网中的基因在信号通路中出现的频率作为特征向量,优化特征并构建模型,用来区分药物组合的正负样本,并且预测潜在的药物组合。为了区别不同特征的重要性以及避免过拟合的问题,根据最大关联与最小冗余方法(m RMR)筛选得到的前100个特征,逐步递减特征(即前100个特征,前99个特征,……,前1个特征),重新建立了100个简化的支持向量机模型。从结果中发现,选择前32个特征的预测结果最好(见表9-9)。
图9-21 单独药物氨甲蝶呤的作用
用药前后基因表达变化比率作为权重,用j Active Modules方法从现有PPI网络中选择出的最优子网络,共包含97个基因,得分10.052。
表9-9 m RMR方法筛选得到的前32个特征
(续表)
注:特征构建方法参见9.3.2.3节。
使用以上筛选的特征,“留一法”交叉验证,评价模型对于药物组合的预测能力,分别计算了ROCAUC、准确率、精密度、召回率、敏感度、特异度和F 分数,结果如表9-10所示。
支持向量机模型分配给每一对蛋白 配体相互作用关系一个分数,分数越高,代表这对蛋白配体相互作用关系属于正样本即真实存在的可能性越大。最优化的分数阈值在F分数达到最大值时取得。在最优化的分数阈值下得到的准确率、精密度、召回率、敏感度和特异度,用来评价模型对蛋白配体相互作用关系的预测能力。从表9-10和图9-22中可见,已经建立的支持向量机模型能够较好地对药物组合的训练集合的正负样本进行分类。6组平行实验的平均结果ROCAUC达到0.7941,准确率、精密度、召回率、敏感度和特异度平均分别达到0.7632、0.7359、0.8386、0.8386和0.6855。
表9-10 六组平行模型的“留一法”交叉验证结果
图9-22 “留一法”交叉验证的ROC曲线(彩图见第402页)
结果说明,我们构建的模型对于药物组合的正负样本具有一定的区分能力。相比传统的实验筛选药物组合的成功率仅有10%,我们的模型对于药物组合达到了较高的预测水平。
综上所述,基于药物组合的最优子网络以及KEGG通路信息构建的计算模型,能够较好地区分药物组合的正负样本,进而预测药物组合。提示整合药物组合的最优子网络和KEGG的通路信息,对于建立药物组合之间的本质联系是一种具有较好前景的方法。
9.3.3.4 重要特征分析及案例说明
筛选出来的32个重要特征如表9-9所示,大多数通路涉及癌症,例如KEGG_PATHWAYS_IN_CANCER、KEGG_PANCREATIC_CANCER和KEGG_PROSTATE_CANCER。这在诸多关于药物组合的文献中均有报道。其次,还有许多涉及糖和能量代谢的通路,如KEGG_PANTOTHENATE_AND_COA_BIO-SYNTHESIS、KEGG_PENTOSE_PHOSPHATE_PATHWAY、KEGG_O_GLY-CAN_BIOSYNTHESIS和KEGG_PENTOSE_AND_GLUCURONATE_INTER-CONVERSIONS。
已有研究证明,糖代谢也会受到不同药物组合的影响而产生不同的机体响应。其中,KEGG_OXIDATIVE_PHOSPHORYLATION是能量代谢中的重要一环,能够产生生物能量所需的ATP。KEGG_P53_SIGNALING_PATHWAY也被证明对药物组合具有显著影响。P53基因编码一种相对分子质量为53000的蛋白质而得名,是一种抗癌基因。其表达产物为基因调节蛋白(P53蛋白),当DNA受到损伤时表达产物急剧增加,可抑制细胞周期进一步运转。一旦p53基因发生突变、P53蛋白失活、细胞分裂失去节制导致癌变,人类癌症中约有一半是由于该基因发生突变失活。KEGG_PRIMARY_IMMUNODEFICIENCY是涉及免疫的通路。研究发现,免疫凋亡在药物组合中发挥着关键的作用,能够大大促进肿瘤细胞凋亡的敏感性和速率。由此可见,通过特征筛选得出的一些显著特征具有很强的生物相关性,能够用于对预测分类模型的构造。
为了测试所提出的计算方法能否预测新的药物组合,这里用一个案例进行说明。在我们的模型训练集中,癌症药物组合共包含11种独立药物,可以构成55种可能的药物对组合,但只有6个是数据库中确认的药物组合。用上述构建的模型进行打分,得分前10的药物组合列于表9-11中。其中,有3个是数据库中已包含的药物组合,另外有2个找到了文献支持。例如:用多柔比星和依托泊苷的药物组合治疗PC3前列腺癌细胞,能改变激肽释放酶5和11的表达,对彻底杀死肿瘤细胞具有很好的疗效。该组合还运用到临床二期的小细胞尿道上皮癌的交替治疗中,发现能够很好地抑制肿瘤的转移。同样,二甲双胍可以通过抑制细胞增殖和调节m TOR通路来加强子宫内膜癌细胞对紫杉醇药物的敏感度。此外,文献还报道了二甲双胍可以介导p38基因下调,从而降低人肺癌细胞DNA修复的能力,增强对紫杉醇的敏感度。
表9-11 以癌症药物组合为例,预测到的前10个药物组合列表
9.3.4 讨论与结论
在本章中,我们提出了一种新的计算方法,通过整合药物作用下的基因芯片数据、药物作用下的子网络以及现有的信号通路信息,构建了一个机器学习模型用于预测药物组合。我们认为,药物作用引起细胞网络的局部改变,进而发挥药效并产生不良反应。孤立基因的表达水平改变并不能引起细胞系统的表型改变,相互联系的孤立基因组成的基因网络更能代表药物作用下细胞系统的应答作用。
由于数据库中缺乏直接可以使用的药物组合的基因芯片数据,我们首先使用单独用药的基因表达数据,预测药物组合作用下的基因表达变化率。根据用药前后基因表达变化率的不同,作为现有PPI网络的权重,用j Active Modules筛选药物作用下的最优子网。最优子网中的基因即被认为是药物干扰引起细胞系统响应的基因。以药物组合及单独用药下最优子网中的基因在信号通路中出现的频率作为特征向量,优化特征并构建支持向量机模型。“留一法”交叉验证结果显示,ROC AUC的均值达到0.7941,说明该模型能够较好地实现药物组合与负样本的分类。通过特征筛选,我们也初步探索了不同药物之间发生组合与信号通路的联系。以癌症为例的案例分析,发现预测到的前10个癌症药物组合中,有3个是数据库中已存在的,有2个找到了文献支持,进一步印证了本模型的有效性。相信本章提出的模型能够有助于缩小药物组合的搜索范围,为现有药物的使用提供一条新途径,指导进一步的实验研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。