大数据开拓者 带给人的10大启示

毋庸置疑,大数据时代已经来了。那么,我们如何去应对这种局面呢?下面,我们听听拥有此方面经验的专家是如何说的吧。

  首先我们要知道,在成百上千TB的信息中,我们该如何充分利用大数据。这完全取决于个人的需求和偏好。Interclick广告服务公司找到了一种在提供接近实时数据分析的同时,能提供更高效的解决方案。哈佛医学院也了解到,在对病人数量和多年保持不变的数据研究的情况下,数据也会明显增长。互联网流量监测机构comSCore,拥有12年的利用列存储数据库压缩数据的丰富经验,事实上,它采用了排序技术来优化压缩、减少处理需求。

  目前,包括雅虎、Facebook、Twitter、NetFlix和eHarmony(美国在线约会网站)都认为,Hadoop是一个理想化的低成本处理 非结构化数据平台。它不仅能满足互联网巨头需要,也能满足包括摩根大通银行和其他主流的传统企业的需求。数据供应商InfoChimps同时发现,随着越来越多的附加和辅助应用的提供,Hadoop将是提供部署支持的快速成熟方案。

大数据时代下的应用

  当然,并非所有的大数据部署都是根据总规模来衡量。比如Linkshare只保留了几个月但每天都需要加载和快速分析多达数十GB的数据,因此对于每天的这些数据规模来说它是一个比较大规模的部署。除此之外,我们还需要注意数据仓库扩展性的六个维度。只有这样,我们才可以制定一个较为准确的方案,从而满足最为苛刻的测试需求,并获得技术投资满足未来需要。

  一、快速查询确保高效和及时

  大规模并行处理平台、列存储数据库、数据库内处理技术和内存计算技术,都可以大幅降低数据查询时间,从数天、数小时缩减到几分钟甚至几秒。但这并不够。纽约广告公司Interclick发现,快速分析带来的最主要好处是高效。快速响应能争取到更多时间进行更多、更深入的查询工作。第二个好处则是,可以获得几近实时分析的结果,据此分析有助于提高决策反应水平和准确率。

Interclick所采用的大数据分析技术

  通过快速响应,Interclick能够在几个小时甚至数分钟内对网上冲浪者的行为进行细分。它能够对访问旅游站点、预订酒店站点等的网名行为信息,发送给相应的航空公司、连锁酒店、汽车租赁公司等。Interclick采用的是ParAccel列存储数据库部署,内存集群可以容纳3.2TB容量的数据。

  二、衡量数据增长时深知何为贵

  通过对长达20年的医疗记录、研究各种药物的疗效和风险,哈佛医学院吸取到了这样一种教训--在规划数据仓储投资时,不仅仅需要解诸如客户、记录和交易数量等简单问题。虽然病人数量和时限仍然较为稳定,但各种医疗记录却不断丰富起来,因为涌现出了很多新的健康监测技术指标。因此,事先了解所有的动态需求至关重要。

哈佛医学院

  三、数据压缩和削减存储成本

  更好的数据压缩可以节省每TB硬件成本。列存储数据库,比惠普的Vertica、Infobright、ParAccel和Sybase IQ,可以实现30:1或者40:1的压缩比。而行存储数据库,比如EMC Greenplum、IBM Netezza和Teradata,平均4:1的压缩比。这是因为柱状数据可以保持一致,包含邮编、采购订单号码等多种数据。而行状数据,比如与客户相关的属性组合--名称、地址、邮编、采购订单号等等,则不具有这种优势。Aster Data和甲骨文数据库可以提供混合行/列存储功能。甲骨文的Hybrid Columnar Compression可以提供10:1的压缩比。

数据压缩

  压缩比率不同很大程度上取决于数据本身,而且列存储并不总是最好的选择。如果在数据查询的时候需要调用很大属性,行存储方案可能会表现出更好的性能。事实上,行存储数据库经常被企业应用在处理混合查询的数据仓库中,而列存储数据库更多的是集中在海量数据查询中。

  四、分类压缩、减少处理时间

  类似连续性的列数据有利于压缩一样,我们也可以通过数据加载之前进行分类从而提高压缩比。在将数据装载进Sybase IQ至 强,comSCore使用Syncsort DMExpress软件对数据进行分类。该公司的CTO Michael Brown(图示)表示,它可以将10字节的 数据压缩成3、4个字节,而通过分类后的10个字节数据可被压缩成1个字节。“这将给我们存储海量数据提供了另外一种方式 。”

123下一页

时间: 2024-09-20 11:49:18

大数据开拓者 带给人的10大启示的相关文章

香港科技大学教授杨强:云计算、大数据能让每个人都享受到AI红利

 5月19日,由中国电子学会主办,ZD至顶网协办的第八届中国云计算大会进入第二日程,第四范式首席科学家.机器学习领域国际学术带头人.香港科技大学教授杨强在现场带来了"AI For Everyone"的主题演讲. 杨强表示,"我们所说的强人工智能和超级人工智能,实际上并不是我们需要害怕的东西,我们需要害怕的东西是我们的技术,一定需要大数据,但是我们本身又没有大数据这样的红利.相反我们要发展的技术是这样的,把知识迁移到身上,短时间通过小数据能够学习.能够成长,如果我们有能力把大数

《影响中国大数据产业进程100人》张华平:如何应用网络搜索挖掘内容价值

前言: 大数据是一个事关我国经济社会发展全局的战略性产业,大数据技术为社会经济活动提供决策依据,提高各个领域的运行效率,提升整个社会经济的集约化程度,对于我国经济发展转型具有重要的推动作用!2016年,由网加时代网.中国首席数据官联盟发起并主办,北京大学信息化与信息管理研究中心.中国新一代IT产业推进联盟协办的"影响中国大数据产业进程100人"大型人物专访活动全面启动,被采访对象均来自中国首席数据官联盟(分别为自政府.产.学.研.企各个领域),他们将从不同角度,不同层面向大家阐述当前大

与大数据打交道的那些人

今年7月10日,阿里巴巴集团宣布,将在集团管理层面设立首席数据官(Chief Data Officer,CDO)职位,负责全面推进阿里巴巴集团成为数据分享平台的战略.阿里巴巴B2B公司CEO陆兆禧将出任CDO,并直接向集团CEO马云(微博)汇报.作为企业内部C level的又一个重要职位,CDO将在推动企业大数据应用方面起到什么样的关键作用呢?记者试图采访陆兆禧本人,但从阿里巴巴集团公关部门得到的答复是,陆兆禧从来不接受采访.虽然吃了闭门羹,但是记者并不死心,通过其他渠道采访了业界一些主要的厂商

大数据创造了没人理解的人工智能

有了大数据分析之后,算法预言的基础可能会复杂得让常人难以理解:大数据运作的规模也会超乎我们的想象.我们该做些什么准备,才能避免大数据的世界变成一个黑匣子? 作者在<大数据:改变我们生活.工作.思考的革命>一书中作了思考. 现在的电脑系统是根据编写程序时明确要求它们遵循的规则来进行运算的.因此,当一个结果偶尔无可避免地出错的时候,我们可以回过头去,看看电脑是如何得出这个结果的.比如说,我们可以问"为什么外部传感器发现湿度突然大幅上升时,自动驾驶系统会将飞机抬高五度?"今天的电

大数据时代,没人知道哪些数据会成为重点

相信很多智能手机用户不太明白,为什么我只是想下载个手电筒应用而已,这个应用为什么要看我装了其他什么应用,我现在位置是哪里,我通讯录里有什么人,相册里有什么照片?而且还要求打电话和发短信的权限,要知道这些权限我女朋友都没有好不好! 一个手电筒应用的要求比女朋友还多,是不是太过分了?我们都知道,在其位不谋其政的人基本上都不是好家伙,一个手电筒应用想看我的位置通讯录照片,目的肯定也不是识别谁是女朋友,然后将屏幕亮成爱你的形状然后彩信发给女朋友逗她开心. 新华网的记者做了一次小测试:他手上的一款 And

《影响中国大数据产业进程100人》 刘冬冬: 数据如何来支持新的商业战争

前言:   大数据是一个事关我国经济社会发展全局的战略性产业,大数据技术为社会经济活动提供决策依据,提高各个领域的运行效率,提升整个社会经济的集约化程度,对于我国经济发展转型具有重要的推动作用!2016年,由网加时代网发起并承办,北京大学信息化与信息管理研究中心.中国新一代IT产业推进联盟协办的"影响中国大数据产业进程100人"大型人物专访活动全面启动,被采访对象分别来自官.产.学.研.企各个领域,他们将从不同角度,不同层面向大家阐述当前大数据产业热点.难点.疑点问题,为中国大数据产业

大数据产业将迎亿万市场 十大商业应用场景抢先看

大数据冲击着许多主要行业,包括零售业.金融行业.医疗行业等,大数据也在彻底地改变着我们的生活.现在我们就来看看大数据给中国带来的十商业应用场景,未来大数据产业将会是一个万亿市场. 1.智慧城市 如今,世界超过一半的人口生活在城市里,到2050年这一数字会增长到75%.政府需要利用一些技术手段来管理好城市,使城市里的资源得到良好配置.既不出现由于资源配置不平衡而导致的效率低下以及骚乱,又要避免不必要的资源浪费而导致的财政支出过大.大数据作为其中的一项技术可以有效帮助政府实现资源科学配置,精细化运营

蓝点数据携手北京大数据产业人才实训基地培养大数据人才

10月20日,北京市科委授予北京宏福大数据基地为北京大数据产业人才实训基地,授牌仪式暨大数据人才培养计划新闻发布会在宏福大厦隆重召开.在新闻发布会上,代表产业的宏福大数据基地和蓝点大数据,与有深厚科研学术背景的北京大数据研究院,签订了在大数据的产业发展促进.科研成果转化.企业项目研发.学术交流.校企合作.高端人才培养等领域的三方战略合作协议,会上发布了<大数据人才培养计划>. 未来,在政府的大力支持下,将充分利用北京大数据人才实训基地的产业背景优势,整合政府.企业.科研和院校的教育资源与实训资

大数据如何改善社会治理:国外“大数据社会福祉”运动的案例分析和借鉴

一.背景 今年,国务院印发<促进大数据发展行动纲要>明确指出大数据将成为提升政府治理能力的新途径,提出:建立"用数据说话.用数据决策.用数据管理.用数据创新"的管理机制,-,推动政府管理理念和社会治理模式的进步. 与此同时,国外学术界和政府管理部门近年来也发起了一项"大数据社会福祉"(big data for social good)运动.与我国的目标相似,该运动也尝试将大数据技术与社会治理相结合,以数据驱动的方式应对现代社会中面临的一些复杂问题,增进社