并发-金融行业hadoop硬件方案咨询

问题描述

金融行业hadoop硬件方案咨询

我们有这样一个需求金融行业某项目,需要保存大量图片与视频及文件。
目标数据量是20T,200并发要求1分钟下载完100M的文件(带宽10M)。
有以下问题:

1.首先问hdfs是否适合保存图片、视频,其稳定性怎样?
2.服务器配置应该如何权衡,nameNode是不是得高CPU、高内存,dataNode是不是得高内存1万转的硬盘是否够用。
3.20T的需求需要陪物理硬盘多大容量,nameNode是否需要做热备?
4.nameNode与dataNode需要不需要做Raid,如果做的话做几?
5.我们团队没hadoop经验,只做图片视频文件保存读取,不知道上手快不快。有什么坑?
6.hadoop集群环境下,怎么监控。比如说硬盘坏了,怎么发现处理?

解决方案

最好使用云服务器,根据需要逐步增加,而避免空洞地估算造成实际使用的不足和浪费。云服务器的资源你可以想象是按需提供,无限量的。而且硬件软件故障维护也是自动化的。

解决方案二:

带宽10M1分钟内最大只能下载75M,带宽至少需要20M。

解决方案三:

每个Datanode节点周期性地向Namenode发送心跳信号。网络割裂可能导致一部分Datanode跟Namenode失去联系。Namenode通过心跳信号的缺失来检测这一情况,并将这些近期不再发送心跳信号Datanode标记为宕机,不会再将新的IO请求发给它们。任何存储在宕机Datanode上的数据将不再有效。Datanode的宕机可能会引起一些数据块的副本系数低于指定值,Namenode不断地检测这些需要复制的数据块,一旦发现就启动复制操作。

时间: 2024-08-30 14:15:33

并发-金融行业hadoop硬件方案咨询的相关文章

深度学习的三种硬件方案 ASICs、FPGAs 和 GPU,开发者需要知道什么?

今年三月 AlphaGo 和李世石的"世纪之战"炒红了深度学习-- AlphaGo 采用了人工神经网络技术,充分挖掘了深度学习的潜力.简单来说,深度学习是一个包含了许多层级数据处理的神经网络,以自动化方式组合起来解决问题. 人机大战之前,相当多的人并不看好 AlphaGo,包括许多围棋.AI 业内人士 .但公众并不清楚的是:当时谷歌手中握着一张王牌--AlphaGo 的计算设备搭载了特制硬件,一个被谷歌称为"Tensor Processing Unit"(TPU)的

Apache Eagle:分布式实时 Hadoop 数据安全方案

日 前,eBay公司隆重宣布正式向开源业界推出分布式实时安全监控引方案 - Apache Eagle (http://goeagle.io ),该项目已正式加入Apache 称为孵化器项目.Apache Eagle提供一套高效分布式的流式策略引擎,具有高实时.可伸缩.易扩展.交互友好等特点,同时集成机器学习对用户行为建立Profile以实现实时智 能实时地保护Hadoop生态系统中大数据的安全. 背景 随着大数据的发展,越来越多的成功企业或者组织开始采取数据驱动 商业的运作模式.在eBay,我们

micro:bit 的完整硬件方案

近日,micro:bit 开发板的硬件方案完全公开了,大家可以自己DIY了.方案包括了完整的原理图.PCB.BOM.装配图等,并且提供了Altium.KCAD.Eagle三种格式. 文章转载自 开源中国社区 [http://www.oschina.net]

霸气!涂鸦智能斩获2016年度中国智能硬件方案奖

OFweek智能家居网讯 11月17日晚,深圳,OFweek Intelligent HardwareAwards 2016 行业年度评选颁奖盛典如期举行,本次活动由OFweek中国高科技行业门户联合智慧生活网主办.OFweek可穿戴设备网及OFweek智能家居网共同承办,是中国智能领域和高科技行业具有权威性.专业性和影响力的评选项目之一,也是2016年中国智能硬件行业内的一大品牌盛会. 该评选旨在用表彰智能硬件行业具有突出贡献的优秀产品及高新企业的方式,以推动.鼓励更多制造企业投入领域创新:同

天云趋势:云管理与Hadoop行业方案齐头并进

天云趋势,云基地核心企业之一,是云基地携手趋势科技,应"云"而生的企业.其在开源界颇具影响力:Hadoop源代码贡献全球第八:多位在Hadoop.HBase.Flume项目中的committer:CloudStack中国社区的实质上引领者:2012年深入中国二三线城市举办数十场开源技术培训,培养起一批CloudStack和Hadoop的专业技术人才."2012云世界大会",CSDN就CloudStack.Hadoop.行业落地应用实践.大数据未来发展方向等诸多问题采

为Hadoop集群选择合适的硬件配置

随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件. 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单. 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性.(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多). 在这个博客帖子中,你将会学到一些工作负载评估的原则和它在硬件选择中起着至关重要的作用.在这个过程中,你也将学到Hadoop管理员应该考虑到各种

《Hadoop集群与安全》一1.1 选择Hadoop集群硬件

1.1 选择Hadoop集群硬件 Hadoop是可扩展的集群,它采用非共享系统处理大规模并行数据.Hadoop的总体概念是单个节点对于整个集群的稳定性和性能来说并不重要.根据这种设计理念,我们可以在单个节点上选择能够高效处理少量(相对于整体的数据量大小)数据的硬件并且在硬件层面也无需过分追求稳定性和冗余性.读者可能已经知道,Hadoop集群由多种类型的服务器所组成.它们中有主节点,比如NameNode.备份NameNode以及JobTracker,还有称为DataNode的工作节点.除了核心的H

Hadoop HDFS RPM包安装方案

文章出处:http://netkiller.github.io/storage/hdfs.html   5.2. Hadoop HDFS RPM包安装方案 你是不是感觉Hadoop 安装太复杂呢? 下面是无障碍,无门槛安装方案,非常适合不懂Java得系统管理. HDFS:       NameNode  :管理节点       DataNode  :数据节点       SecondaryNamenode : 数据源信息备份整理节点 MapReduce        JobTracker  :任

Hadoop危机?替代HDFS的8个绝佳方案

HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,坦白说HDFS是一个不错的分布式文件系统,它有很多的优点,但也存在有一些缺点,包括:不适合低延迟数据访问.无法高效存储大量小文件.不支持多用户写入及任意修改文件. Apache软件基金会成立的时候,HDFS就一直在想办法提高它的性能和可用性,坦白说,这也许对试点项目.非常规项目.要求不严格的大环境中比较适用,但是对于某些Hadoop用户来说,他们对于性能.可用