当前位置:首页 > 生物研究 > 生物信息学 > 正文

癌症研究中的数据挖掘工具

 

新一代测序(NGS),结合其他分子鉴定技术,已经从正常和患病的人类样品中捕获了大量的序列数据。对于癌症研究人员而言,采集数据仅仅是个开始;找到引起或促进疾病的基因才是“压力山大”。关键的挑战在于找出特定的突变,它们引发正常细胞癌变。此时此刻,大多数的癌症驱动突变都隐藏在遗传信息的海洋之中。如何大海捞针?这些新的计算和生物信息学工具也许能帮助你。
 
商业化工具
 
赛默飞世尔的Oncomine® 平台让研究人员能够搜索各种不同类型癌症的基因表达研究的大型数据库。Oncomine® Power Tools为拷问数据提供了一个高度交互的环境。这些工具包括Oncomine® Gene Browser、Gene Expression Browser、DNA Copy Number Browser和Mutation Browser。另外,赛默飞世尔也提供Oncomine® NGS Power Tools,能实现NGS数据的分析,包括生物标志物预测和驱动突变鉴定。
 
Affymetrix免费的Transcriptome Analysis Console(TAC)软件是为分析和解释全转录组表达数据而设计的。TAC可开展基因水平、外显子水平或选择性剪接的分析。TAC还特有microRNA相互作用网络工具,这对癌症研究人员来说很有用,因为“miRNA已成为癌症研究中的重要部分,研究表明,miRNA的失调会促进癌症的发生和发展,”Affymetrix高级产品经理John Keefe谈道。当然,研究miRNA对mRNA的调控很复杂,因为一个或多个miRNA可能与一个或多个mRNA结合。“TAC软件让您快速方便地查看miRNA和mRNA的倍数变化,覆盖所有潜在的mRNA-miRNA相互作用网络,便于快速理清它们的关系,”Keefe说。
 
Illumina的NextBio Research软件则让研究人员能比较不同实验之间的基因表达数据集。“NextBio Research包含了数千项研究,它们是从各种公开访问的数据库中导入的,包括Gene Expression Omnibus(GEO)和Stanford Microarray Database,”Illumina信息学的高级产品营销经理Andrew Boudreau谈道。“此软件能够实现不同表达平台的标准化,这样不同的表达数据可相互比较,无论是在平台内部,还是平台之间。”
 
安捷伦的GeneSpring平台是专为多组学数据的分析而设计的,包括基因组学、蛋白质组学、代谢组学和转录组学。它可以整合这些不同类型的数据集,实现多层次的视图。元数据框架功能允许根据数值或分类参数进行查看和排序,如表型、治疗、临床信息及许多样品相关的数值。安捷伦生物信息学部门的营销经理Carolina Livi认为,GeneSpring的一个重要工具是能够在分析中纳入非实验的参数。“GeneSpring 13平台如今提供这种元数据视图框架,让这一切更加容易,”她说。
 
组织病理学 + 数据挖掘
 
另一款开放获取的工具是由美国纪念斯隆•凯特琳癌症中心开发的cBioPortal for Cancer Genomics。该软件让研究人员能够探索来自不同癌症研究的大规模基因组数据集。阿拉巴马大学伯明翰分校的病理学助理教授Dejun Shen最近将cBioPortal与癌症患者的组织病理学信息相结合。
 
这种方法称为以病理学为中心的数据挖掘,它利用病理学特征来分类癌症相关的遗传异常。“我首先通过病理学特征对患者进行分类,然后寻找和比较各个组之间的遗传异常,”Shen谈道。与那些将生物信息学标准建立在体外实验上的研究不同,他的方法包括诊断病理学和癌症相关基因的体内状态。“我相信我的结果更可靠地反映了基因在体内的功能状态,”他说。
 
更多的分析工具
 
其他的科研实验室也在开发数据挖掘工具。例如,范德堡大学的Zhongming Zhao实验室最近发表了一种称为突变集富集分析(MSEA)的数据挖掘方法。这种方法利用MSEA来梳理现已存在的癌症研究数据。这样的任务很棘手,因为癌症样品包含大量突变,而很多与癌症无关。MSEA让研究人员能够关注癌症相关基因的热点。他们将这种方法应用在Cancer Gene Census和The Cancer Genome Atlas的数据上,发现51%的癌基因包含突变热点,这使得他们可根据突变簇的模式来预测癌基因。
 
另一个学术界的创新是来自格罗宁根大学医学中心的Lude Franke实验室。这个研究小组利用现有的基因表达研究,访问大量的癌症患者样品以及近80,000份表达图谱。他们开发出一种统计方法,能够从RNA图谱中找到DNA异常。他们发现,DNA拷贝数与表达水平强烈相关,他们还利用16,000多份肿瘤样品,将基因组不稳定的癌症与基因的破坏相关联。得益于计算方面的进展,这种在几年前还不可行的做法如今变得可行。
 
在选择数据挖掘工具时,你需要考虑未来的需求:如果你的实验室利用另一种实验来验证或加强目前的研究,那么数据挖掘方法是否能够将这两种类型的数据整合在一起。“目前人们希望从多个角度查看癌症基因组,并整合数据分析,将遗传改变与功能改变相关联,”Keefe谈道。他建议考虑那些彼此兼容的工具。当然,无论你选择哪种方法,都应当关注这一领域的最新进展。
阅读次数:  

发表评论