基于Hadoop的化合物生物活性分析系统

李杰辉，张亮，陈健，南蓬

通过药物虚拟筛选，发现在具有生物活性化合物过程中，存在小分子结构相似性比较计算繁杂等问题。为此，结合MapReduce模型，提出一种基于Hadoop 的并行计算模型处理方法，并通过Hadoop 工具予以实现。同时根据Hadoop 分区算法不均匀、容错功能存在重复计算等问题对该方法进行改进。实验结果表明，该方法平均加速效率达到0.91，具有较好的可靠性和扩展性。

关键词：生物活性；生物信息学；并行计算；可扩展性；数据库；Hadoop 框架

temp_12071100048292.pdf

时间： 2025-01-27 19:16:08

基于Hadoop的化合物生物活性分析系统的相关文章

基于云计算技术的化合物相似性分析系统

基于云计算技术的化合物相似性分析系统复旦大学李杰辉本文研究了云计算的相关理论.特点和关键技术,探索了分布式数据处理编程模型MapReduce以及其开源实现Hadoop的运行机制和原理,针对分子结构比较问题提出了一个分布式解决方案.主要做了如下研究:1)研究了云计算相关技术和分子相似性比较算法,结合Hadoop云计算技术的优点,针对Hadoop无法直接应用于分子相似性比较问题,提出了基于索引文件的处理方法,将Hadoop云计算技术应用到分子相似性比较领域上.2)通过实验验证了该方法的可行性

基于云计算的信息系统数据采集分析系统的研究与设计

基于云计算的信息系统数据采集分析系统的研究与设计李东辉方方吴小志朱广新茹萌从云计算三个层次的服务模式出发,提出了一种基于云计算平台的分布式并行信息系统数据采集分析系统.首先,通过Hadoop云计算平台提供的分布式文件系统提升数据的存取速度,增强系统的容错性.在此基础上,利用MapReduce编程模型并行化数据流系综分类算法,提高数据的分类挖掘效率.最后,采用Web Service技术构建了SOA服务体系架构,从而整合了技术平台.测试结果表明,检测系统运行高效,并且检测精度高,具有一定

基于Hadoop开发网络云盘系统客户端界面设计初稿

前言: 本文是<基于Hadoop开发网络云盘系统架构设计方案>的第二篇,针对界面原型原本考虑有两个方案:1.类windows模式,文件夹.文件方式,操作习惯完全按照Windows方式进行,提供右键菜单管理命令.2.浏览列表式,提供常规界面按钮式命令.本文采用的方式是文件清单列表式,至于第一种方式,另列专题进行说明. 一.界面原型二.设计说明连接管理:建立连接.断开连接.设置连接参数文件操作:浏览文件.上传文件.下载文件.删除文件.导入文件(批量).刷新列表用户管理:查看用户信息.修改用

基于Hadoop的智能电网监控系统的设计与实现

基于Hadoop的智能电网监控系统的设计与实现杜旭刘森颜璟仪科技创新与应用 2014年17期基于Hadoop的智能电网监控系统的设计与实现

Vpon推首个基于云计算海量数据移动广告分析系统

今年初,Google Analytics产品衍生为可以支持统计行动作业系统上的App使用数据,消息一出,让国内移动互联网人蠢蠢欲动.来自国内的知名移动品牌广告平台Vpon Inc.在本月初不期然宣布,他们的开发团队已经采用基于Hadoop的海量云结构开发出一套支持海量数据挖掘.分析及处理的3S系统(Sales Supporting System),它将率先与Google.Yahoo.Facebook等公司在领先技术的应用上比肩,建立大中华区最大的MapReduce移动广告运算丛集(cluster

基于Hadoop开发网络云盘系统架构设计方案第一稿

引言云计算技术的发展,各种网络云盘技术如雨后春笋,层出不穷,百度.新浪.网易都推出了自己的云盘系统,本文基于开源框架Hadoop设计实现了一套自己的网络云盘系统,方案为初步设计方案,不断完善中. 一.总体架构二.方案说明 2.1 系统切分从用户角度,整个系统划分为ECDisk客户端.ECDisk运营管理平台.HDFS分布式文件存储集群和账户数据应用平台四部分. 2.2 功能需求文件管理:浏览.文件上传.文件下载.文件删除用户管理:用户注册.用户登录.用户注销.账户充值.账户查询三.技

使用python构建基于hadoop的mapreduce日志分析平台

流量比较大的日志要是直接写入Hadoop对Namenode负载过大,所以入库前合并,可以把各个节点的日志凑并成一个文件写入HDFS. 根据情况定期合成,写入到hdfs里面. 咱们看看日志的大小,200G的dns日志文件,我压缩到了18G,要是用awk perl当然也可以,但是处理速度肯定没有分布式那样的给力. Hadoop Streaming原理 mapper和reducer会从标准输入中读取用户数据,一行一行处理后发送给标准输出.Streaming工具会创建MapReduce作业,发送给各个t

基于Hadoop用户行为分析系统设计与实现

基于Hadoop用户行为分析系统设计与实现北京交通大学郝增勇本课题在大数据背景下,针对不能全面准确分析网络用户行为的问题,利用网络安全开发包Libnids和分布式平台Hadoop关键技术,重点研究设计并开发出基于Hadoop的用户行为分析系统.本系统实现了海量数据包抓取和分布式存储.TCP重组和应用层HTTP行为分析等功能,不仅有助于服务提供者根据用户行为特征提供更好的推荐服务,而且为网络相关部门对网络舆论进行合理的监控奠定有效的技术支撑.本文采用了基于Hadoop的用户行为分析方法,首

基于Hadoop的云盘系统客户端技术难点之一上传和下载效率优化

作者:张子良声明:版权所有,转载请注明出处一.概述基于任何平台实现的云盘系统,面临的首要的技术问题就是客户端上传和下载效率优化问题.基于Hadoop实现的云盘系统,受到Hadoop文件读写机制的影响,采用Hadoop提供的API进行HDFS文件系统访问,文件读取时默认是顺序.逐block读取:写入时是顺序写入. 二.读写机制首先来看文件读取机制:尽管DataNode实现了文件存储空间的水平扩展和多副本机制,但是针对单个具体文件的读取,Hadoop默认的API接口并没有提供多DataNo