导读
建立DNA搜索引擎的竞赛---基因组搜索公司争相成为个性化医疗的谷歌!
自2005年,二代测序开始改变遗传学领域的研究。获得个人的全基因组测序变得快速且相对廉价。遗传信息数据库正在以TB字节的速度增长,医生和研究人员迫切需要一种有效的信息筛选方法,以寻找某种异常的原因或者为评估患者对治疗措施的反应提供线索。
在过去的五年,研发DNA搜索引擎的公司如雨后春笋般涌现,争相成为研发DNA搜索引擎的第一人。他们都有不同的战术——有些甚至拥有自己私有的遗传信息数据库,但是大多数正致力于链接足够多的遗传数据库,以便用户可以快速识别大量的各种各样的突变。大多数公司也研究应用生物学文献补充遗传学信息的搜索算法。但在早期网络的日子里,在谷歌称雄之前,没有哪个公司成为明显的赢家。
创造一个有效的搜索引擎是典型的大数据问题, ViaGenetics公司的副总裁迈克尔·冈萨雷斯说,预计本月将重启他们的搜索平台。在医生或研究人员可以使用数据之前,基因组数据必须按照可读取和可搜索的模式来组织。迈向目标的第一步是,按照一种称之为“变体识别格式”或“VCF”的标准格式存储,一个人的完整基因组测序数据约100千兆字节,直接采用原始的数据格式入库,即使每天只有10个病人的基因组数据,数据库也会很快失控。但VCF文件更紧凑,每个基因只有几百兆字节,有助于研究人员在更短的时间内搜索到他们想要找的特定变异。与全基因组测序不同,VCF文件只给出一个人的基因数据在哪里偏离了2001年的人类基因组计划最初编制的基因组标准。
有了VCF, 从基因组数据中筛选出精准的突变基因不是搜索引擎公司面临的挑战。大多数这类公司都集中资源致力于无缝编译从其他网络数据库中补充特定的突变信息,如生物医学研究档案PubMed或各种搜集来的电子医疗记录。许多这些工具都用精细的算法来优化结果的可信度和相关性。“你希望能够将某个位点的突变信息汇集到一起,并迅速作出评估,” 总部位于犹他州的另一家研发基因--搜索引擎的公司Tute Genomics的首席科学官David Mittelman说。
为了拓展信息关联到一个尚无定论的基因组,位于佛罗里达州迈阿密海滩的ViaGenetics公司,正在更新他们提供给想进行跨机构协作的研究人员使用的信息平台。“有了ViaGenetics的工具,研究人员可以将他们的数据提供给其他用户,其他用户可以看到这些项目,请求访问,并形成合作,”冈萨雷斯说,“它帮助人们在不同的研究人员和机构间建立连接点。这对于没有很广泛的基因组数据库的小型实验室或致力于解码相同的突变的不同大学的研究人员都特别有用。
尽管基因组—搜索行业现在专注于服务科学家,但并会不一直如此。Mittelman设想TuteGenomics公司最终可能直接服务于消费者。Mittelman说,人们已经要求了解他们的基因组信息,只是为了能更好的了解自己,但大多数公司还不认为普通人是他们的主要客户。为了实现这样的转变,搜素工具将会更加直观和友好。“使用不容易解释的数据或不标准术语的搜索工具存在让人们困惑的可能。”他说。隐私也是普通用户主要关心的一个方面,Tute用户上传的信息并不是永久保存的,Mittelman说,但是如果平台提供给大众群体使用,就需要有其他的保证。
另外,行业也在向纵深发展,ViaGenetics和Tute都希望能够自己运营整个过程,从最初的DNA测序到展示给用户最终可搜索的结果。 “目前分析和解释基因组数据的市场很分散,就像计算机行业在1990年代一样,当时你不得不去找单独的供应商购买显卡或主板,然后试着把它组装在一起,“Mittelman说。“很快这个领域将会整合,就象计算机行业曾经的那样。
原文发布时间为:2015-07-09