癌症是细胞基因出了问题而得的疾病。当某些基因发生变异,会导致细胞行为表现怪异。细胞分裂迅速,并躲过人体免疫系统的杀伤,从母体获取生长所需的营养,并最终发展成肿瘤。
科学家们在20世纪70年代开始研究并鉴定这些癌症基因,已知的癌症基因数量逐年增长。通过研究它们,科学家会更清楚不同类型的癌症如何发展,甚至在某些情况下,还能够开发针对这些基因的靶向药物。 例如,去年五月美国食品和药物管理局批准的名为Tarceva的治疗肺癌的一线药物,就是针对其中一个叫做EGFR的变异基因。
美国国立卫生研究院,为加快癌症基因的鉴定,于2005年批准了一个雄心勃勃的项目 “癌症基因组图谱(The Cancer Genome Atlas)” 。 该项目涵盖了超过20种癌症,每种癌症分析了大约500个样本,发现了很多的新基因。 该项目搜集的海量基因组数据已经帮助科学家们更好的了解了癌细胞是怎样利用人体的资源发展成肿瘤的。
冷泉港实验室的总裁布鲁斯•斯蒂尔曼博士说:“癌症基因组图谱项目取得了令人瞩目的成就,这一点毫无疑问 ”。但现在随着该项目即将结束,从属麻省理工学院和哈佛大学的Broad研究所的研究人员最近在Nature杂志上发表了一项研究,讨论癌症研究应该何去何从。 他们估计,科学家们将至少需要检测约10万癌症样本,以鉴定涉50种不同癌症的癌症基因:这一样本数是癌症基因组图谱项目所测样本数的10倍,而该项目的资助高达3亿7千5百万美元,目前已经收集了几十个Terabytes的各种基因组数据供全世界科学家研究。
Broad研究所的所长埃里克•S兰德博士(也是该研究的作者之一)说:“我们现在知道怎样才能建立一个完整的癌症基因目录,我们现在才刚刚开始,还有很多东西要学习。”传统上,科学家们通过比较癌细胞与健康细胞来确定癌基因。如果他们发现在统计意义上不寻常的高数量细胞在某个特定的基因存在突变,他们就会进一步研究该基因,看它是否确实有助于细胞癌化 - 或者它只是一个无害的突变。
兰德博士和他的同事怀疑这种方法可能会错过一些癌基因。 虽然一些癌基因会影响某种癌症的大多数癌细胞,但也有些基因只涉及肿瘤的一小部分细胞。前文所提的Tarceva能够治疗的EGFR基因,其突变只占非小细胞肺癌病例的10%。太少的癌细胞样本可能找不到这种低频率突变。
Broad研究所的研究人员认为通过同时检测多个癌症类型,他们能找到一些常规方法找不到的基因,因为这些基因可能不限于单一类型的癌症。在他们的新研究中,他们分析了来自21种癌症的共4,742样本,一部分样本来自癌症基因组图谱项目,另一部分是Broad研究所自己搜集的。
这项新研究检测到了许多其他科学家此前已经在这21种癌症样本种找到的基因。 但他们也新发现了不少曾经被忽视的致癌基因。 他们总共确定了33个基因,这些基因被高度怀疑促进细胞癌化过程。这可能使得癌症基因目录的基因数量增加约 25%。
“对我来说这真是大开眼界。”兰德博士说。兰德博士和他的同事们开始怀疑,如果科学家们检测更多的癌症样本,可能会发现更多的致癌基因。 癌症基因目录的建立工作,或许才刚刚开始?
“我们第一次开始怀疑,”我们的路还有多远?“兰德博士说。
他们从自己的结果预测,以了解科学家将需要检测多少样本,以发现某特定类型的癌症中至少占2%癌细胞的大部分癌症基因。要找到涉及50种最常见癌症的癌基因,研究人员估计,他们将不得不分析10万个样本。 换句话说,癌症基因组图谱项目分析的样本量,只占该预测样本量的十分之一。
兰德博士认为,癌症基因组项目能以合理的成本来完成,而且还可以得到慈善组织或国际合作伙伴的支持。他说,现在大家应该来讨论一下随着科学的发展,我们将在何时完成癌症基因组目录的编录。
“如果有人说,'我不知道还需要五年,甚至10年才能完成这一科学使命”,这样怀疑是有道理的,“兰德博士说。 “但我更希望早一些知道。”
原文发布时间为:2014-03-14
本文来自合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号