10大完善现有技术的捷径

大数据技术对于企业来说,在做业务时确实是件非常有吸引力的事情,Hadoop是个大规模可扩展数据存储平台,构成了大多数大数据项目基础。而Apache Hadoop的到来则让这个诱惑变得更加诱人。Hadoop是强大的,但不是一触即摸的,是需要公司投入大量的学习精力及其它的资源。

如果得到正确的应用,Hadoop确实能从根本上提升你公司的业务,然而这条Hadoop的应用之路却充满了荆棘。另一个方面,许多企业(当然不是Google、Facebook或者Twitter)也没有做大数据分析所需要的巨型集群。

就像Dabid Wheeler所说“计算机科学的所有问题都有另一个层次间接的解决方案”,而Hadoop正是类似间接解决方案;当你的上司被一些流行词汇所吸引时,做正确的软件架构决策将变的非常艰难。

下文将给出一些对Hadoop进行投资前需要尝试的替代方案:

了解你的数据

数据的总体积

Hadoop是为大型数据集所建立的有效解决方案。

GB级以上的文件系统HDFS。因此如果你的文件只是MB级的,你最好对数个文件进行整合(zip或者tar),让其达到数百兆或者是几GB。

HDFS会将文件分割,并以64MB、128M或者更大的块进行存储。

如果你的数据集非常的小,那么使用这个巨型生态系统将不会很适合。这需要对自己的数据有足够的了解,并且分析需要什么类型的查询以及你的数据是否真的够大。

另一方面,鉴于你的计算指令可能很大,只通过数据库去测量数据的体积可能会存在误差。有时候数学计算或者分析小型数据集的排列可能会让得出的结果远大于实际数据体积,所以关键在于你对数据有切实的了解。

数据增长的速度

你可能在数据仓库或者其它的数据源中存有数TB数据,然而在建立Hadoop集群前有一个必须考虑的因素就是数据的增长速度。

对你的分析师提出几个简单的问题,比如:

数据增速究竟有多快?这些数据是否以非常快的速度增长?

几月或者几年后数据的体积究竟会有多大?

许多公司的数据增长都是按年算的。这种情况下,你的数据增长速度其实并不快;所以这里建议考虑归档和清除选项,而不是直接的奔往Hadoop。

如何减少需处理的数据

如果你确实有非常大体积的数据,你可以考虑通过以下的途径将数据缩减到非常适合管理的体积,以下的几个选项已经过产业几十年考验。

考虑归档

数据存档是对过期的数据进行分开存储,当然存储的时间根据实际需求制定。这需要对数据以及应用程序对数据的使用情况,有非常充分的了解。比如电子商务公司的大数据处理只将3个月内的数据存入活跃数据库,而旧订单则被存入单独的存储。

这个途径同样可以运用于你的数据仓库。当然你可以存储更多的近期数据用于报告和查询,使用频度少的数据可以被存入单独的存储设备。

考虑清除数据

有时候我们一直忙于收集数据而不清楚究竟需要保存多少数据,如果你存储了非常多用不到的数据,那么这将毫无疑问的降低你有效数据的处理速度。弄清你的业务需求并且审查数据是否可以被删除,从中分析出你需要储存数据的类型,这不仅会节省你的存储空间,同样会提升有效数据的分析速度。

一个经常用到的最佳实践就是给数据仓库建立附加列,比如created_date、created_by、update_date及updated_by。通过这些附加列可以对数据进行阶段性的访问统计,这样就可以清楚数据的有效周期。这里需要着重对待的是数据清除的逻辑,切记先思考再实现。如果你使用了一个归档工具,那么数据的清除将会变得非常容易。

不是所有的数据都很重要

你可能受不了储存所有业务相关数据的诱惑,你可能有很多的数据来源,比如:日志文件、营销活动数据、ETL作业等。你需要明白不是所有数据都对业务起关键作用,而且在数据仓库中保存所有的数据并不是有益的。在数据源过滤掉不需要的数据,甚至是在储存到数据仓库之前。不要对所有的数据进行存储,只分析你所需的数据。

注意哪些数据是你想要收集的

拿在线视频编辑业务来说,你会需要保存你用户做出的所有操作吗?这样的话可能会产生非常大的数据体积,如果你发现你的数据仓库不足以应对这些数据,你可能会考虑只存储元数据。虽然视频编辑是个非常极端的例子,然而并不妨碍我们在其它用例中考虑这些信息。

总而言之,根据业务的需求只收集所需要的数据。

智能分析

聘请了解业务的分析师

到目前为止,你应该已经清楚理解数据的重要性;所以在你做了上面所有步骤后并决定使用Hadoop时,聘请1个了解业务的分析师将会对你业务产生巨大帮助。

如果数据分析师不懂如何从中获取价值,那么Hadoop将不会产生任何作用,不要吝啬对业务有深刻认识的雇员投资。鼓励他们多做实验,并且使用新的方式去分析同一个数据,找出使用现有基础设施获利的途径。

为决策制定使用统计抽样

统计抽样可以说是非常古老的技术,研究者及数学家运用它在大体积数据上推断合理的结论。通过这个步骤,我们可以大幅度的缩减数据体积。取代追踪数十亿或者数百万的数据点,只需要跟踪其中数千或者数百的数据点就可以了。这个手段虽然不会给我们提供精准的结果,但是却可以对大型的数据集有一个高等级的理解。

提升技术

你真的已经达到关系型数据库处理的极限了吗?

在探索其它领域之前,你更应该审视关系数据库是否可以继续处理问题。传统的关系型数据库已经被使用了很长一段时间,而很多机构已经可以使用它管理TB级的数据仓库。所以在迁往Hadoop之前,不妨考虑以下的方法。

分割数据

数据切分是从逻辑上或物理上将数据分割成数个更好维护或访问的部分,同时很多流行的开源关系型数据库都支持分片(比如MySQL Partitioning及Postgres Partitionging)。

在传统数据库上考虑数据库分片

数据库分片是提升传统关系型数据库性能极限的最后一招,适用于数据可以逻辑分片在不同节点上并且很少做跨节点join分享的情况。在网络应用程序中,基于用户分片,并将用户相关信息储存在同一个节点上是提升性能的常见途径。

分片有很多限制条件,所以并不是适合所有场景,同样在用例中存在太多的跨节点jion,分片将发挥不了任何作用。

总结

Hadoop的部署将耗费公司巨量的人力和物力,如果能通过提升现有基础设施来达到目标也不失为一良策。

【编辑推荐】

监察者称:云安全风险潜伏在大数据项目中 White Elephant:开发者必备的Hadoop利器 大数据挖出抑郁微博 靠谱吗【责任编辑:箫韵 TEL:(010)68476606】

时间: 2024-09-29 09:37:05

10大完善现有技术的捷径的相关文章

50位中外AI领袖论剑AI World,世界人工智能大会10大亮点全回顾

AI大片震撼开启AI World 2017 新智元AI World 2017世界人工智能大会开场视频:如果你没有亲临现场,一定要看,年度AI大片,不容错过! 2017年11月8日,由新智元主办的 AI World 2017 世界人工智能大会在北京国家会议中心隆重启幕,国内外上百位AI领袖作了覆盖技术.学术和产业最前沿的报告和讨论.超过2000名 AI 精英共襄盛会. 会上,新智元创始人兼CEO杨静与助理来也CTO胡一川发布了全球首个AI专家互动资讯平台"新智元V享圈",基于此打造百万级

简述10大第三方支付工具

随着电子商务的蓬勃发展,网上购物.在线交易对于消费者而言已经从一个新鲜未知的事物变成了日常生活的一部分.对于网络商家而言,传统的支付方式如银行汇款.邮政汇款等,都需要购买者去银行或邮局办理烦琐的汇款业务;而如果采用货到付款方式,又给商家带来了一定风险和昂贵的物流成本.因此,网上支付平台在这种需求下逐步诞生.在线支付做为电子商务的重要组成之一,成为网络商务发展的必然趋势.网上支付平台是指平台提供商通过采用规范的连接器,在网上商家和银行之间建立起连接,从而实现从消费者到金融机构.商家现金的在线货币支

IDC:中国医疗行业IT市场2014年10大预测

IDC中国行业研究与咨询服务部高级研究经理肖宏亮说:"预计2014年医疗卫生信息化将会继续保持高速的发展,移动医疗和临床数据中心成为医院信息化建设的热点,大数据临床决策支持系统将会开始尝试应用:医师多点执业将促使区域卫生信息化再次掀起建设热潮,区域卫生信息化的发展也将带动云计算在医疗行业的应用.民营医院快速发展,公立医院试点转制重组." 基于此,IDC对2014年中国医疗行业IT市场做出如下10大预测: 1.移动医疗系统在大型医院快速普及,提高医护人员工作效率.移动医疗不仅是医疗信息化

鲁四海解读中国大数据发展10大趋势5大挑战 —— 首席数据官联盟2016《中国大数据企业排行榜》发布会实录

2016年7月14号,首席数据官联盟在京发布了2016年<中国大数据企业排行榜>.本次发布的<中国大数据企业排行榜>由北京大学电子政务研究院.中国新一代IT产业推进联盟共同指导,由首席数据官联盟专家组依据大数据企业评价指标体系对国内大数据企业进行综合评定.与此同时专家组还总结出了中国大数据发展的10大趋势和5大挑战.此次<中国大数据企业排行榜>得到业界的大力支持,发布会由中华网.中关村智能硬件产业联盟.北京优智活孵化器协办.机械工业信息中心处长白涌如.北京大学电子政务研

贤二机器僧二代亮相世界人工智能大会 | 主创团队与10大核心技术解密

贤二机器僧亮相2016世界人工智能大会,贤信法师解读研发宗旨 2016世界人工智能大会上,龙泉寺五位法师携贤二机器僧登台亮相.贤信法师(右一)代表龙泉寺解读贤二机器僧研发宗旨.龙泉寺动漫中心贤帆法师(右二)怀抱贤二机器僧一代. 贤信法师:大家好,感谢主办方的邀请,让我们有机会参加这样一个大会,听到诸位专家对人工智能领域最新发展的分享,让我们感觉非常受益.北京龙泉寺开放到现在十多年以来,我们的方丈学诚大和尚一直非常注重将佛法和现代科技相结合,比如说我们的贤度法师在目前龙泉寺大藏经的编纂工作中,积极

中国大数据发展10大趋势5大挑战

近日,首席数据官联盟在京发布了2016年<中国大数据企业排行榜>.本次发布的<中国大数据企业排行榜>由北京大学电子政务研究院.中国新一代IT产业推进联盟共同指导,由首席数据官联盟专家组依据大数据企业评价指标体系对国内大数据企业进行综合评定. 与此同时专家组还总结出了中国大数据发展的10大趋势和5大挑战.首席数据官联盟发起人.中国新一代IT产业推进联盟技术分委会秘书长鲁四海做了精彩解读.鲁四海为我们分析了中国大数据发展的10大趋势和5大挑战,以下是现场实录: 趋势一:首席数据官开始崛

认识软件性能测试10大误区

曾经我们帮助客户进行软件性能测试的时候,客户不解的问,不是必须通过功能测试后才可以测试性能吗?可能有很多人会存在这样的疑问,在这里,我们的多位专家根据多年经验总结出性能测试的10大误区,希望能给大家带来帮助. 误区1:应用程序必须通过功能测试后才可以测试性能. 应该尽早的进行性能测试.性能测试可以发生在各个测试阶段中,即使是在单元层,一个单独模块的性能也可以使用白盒测试来进行评估,然而,只有当整个系统的所有成分都集成到一起后,才能检查一个系统的真正性能. 性能测试从早开始,完成一个小模块,对小模

2009年中国电子商务发展10大关键词

2009年,尽管中国经济受到了国际金融危机的洗礼,但中国电子商务仍保持飞速发展,社会经济影响力不断扩大.继2008年中国电子商务发展10大关键词发布后,阿里巴巴集团研究中心特别选取了2009年中国电子商务发展十大关键词,供业界参考. 一.逆势扩张:电子商务为经济复苏赋能 有数据表明,2009年第3季度中国B2B电子商务运营商总体营收规模达17.1亿元,环比增长9.6%,同比增长23.9%.在国际金融危机中,电子商务优势凸显,阿里巴巴等电子商务服务提供商自身实现快速扩张的同时,也为其客户--千万中

二维码营销——2012年度10大热门案例

中介交易 SEO诊断 淘宝客 云主机 技术大厅 在2012年度10大热门二维码排行榜当中,前10名中有四个二维码(第4名.第5名.第7名.第10名)是扫描了之后将使用者导引到会员注册/登录的页面.除了排名优秀之外,也都是源自日本,且都有移动版的网页,而且点击率也都很不错(达95%以上).基本上这几家公司都有: * 清楚说明扫描二维码的目的. * 提供足够的诱因. 才会有如此高的点击率. 排名10:老牌公司吸收新会员 被扫描次数:9921 点击率:95.01% 发布者:World Co.,Ltd.