毋庸置疑,大数据时代已经来了。那么,我们如何去应对这种局面呢?下面,我们听听拥有此方面经验的专家是如何说的吧。
首先我们要知道,在成百上千TB的信息中,我们该如何充分利用大数据。这完全取决于个人的需求和偏好。Interclick广告服务公司找到了一种在提供接近实时数据分析的同时,能提供更高效的解决方案。哈佛医学院也了解到,在对病人数量和多年保持不变的数据研究的情况下,数据也会明显增长。互联网流量监测机构comSCore,拥有12年的利用列存储数据库压缩数据的丰富经验,事实上,它采用了排序技术来优化压缩、减少处理需求。
目前,包括雅虎、Facebook、Twitter、NetFlix和eHarmony(美国在线约会网站)都认为,Hadoop是一个理想化的低成本处理 非结构化数据平台。它不仅能满足互联网巨头需要,也能满足包括摩根大通银行和其他主流的传统企业的需求。数据供应商InfoChimps同时发现,随着越来越多的附加和辅助应用的提供,Hadoop将是提供部署支持的快速成熟方案。
大数据时代下的应用
当然,并非所有的大数据部署都是根据总规模来衡量。比如Linkshare只保留了几个月但每天都需要加载和快速分析多达数十GB的数据,因此对于每天的这些数据规模来说它是一个比较大规模的部署。除此之外,我们还需要注意数据仓库扩展性的六个维度。只有这样,我们才可以制定一个较为准确的方案,从而满足最为苛刻的测试需求,并获得技术投资满足未来需要。
一、快速查询确保高效和及时
大规模并行处理平台、列存储数据库、数据库内处理技术和内存计算技术,都可以大幅降低数据查询时间,从数天、数小时缩减到几分钟甚至几秒。但这并不够。纽约广告公司Interclick发现,快速分析带来的最主要好处是高效。快速响应能争取到更多时间进行更多、更深入的查询工作。第二个好处则是,可以获得几近实时分析的结果,据此分析有助于提高决策反应水平和准确率。
Interclick所采用的大数据分析技术
通过快速响应,Interclick能够在几个小时甚至数分钟内对网上冲浪者的行为进行细分。它能够对访问旅游站点、预订酒店站点等的网名行为信息,发送给相应的航空公司、连锁酒店、汽车租赁公司等。Interclick采用的是ParAccel列存储数据库部署,内存集群可以容纳3.2TB容量的数据。
二、衡量数据增长时深知何为贵
通过对长达20年的医疗记录、研究各种药物的疗效和风险,哈佛医学院吸取到了这样一种教训--在规划数据仓储投资时,不仅仅需要解诸如客户、记录和交易数量等简单问题。虽然病人数量和时限仍然较为稳定,但各种医疗记录却不断丰富起来,因为涌现出了很多新的健康监测技术指标。因此,事先了解所有的动态需求至关重要。
哈佛医学院
三、数据压缩和削减存储成本
更好的数据压缩可以节省每TB硬件成本。列存储数据库,比惠普的Vertica、Infobright、ParAccel和Sybase IQ,可以实现30:1或者40:1的压缩比。而行存储数据库,比如EMC Greenplum、IBM Netezza和Teradata,平均4:1的压缩比。这是因为柱状数据可以保持一致,包含邮编、采购订单号码等多种数据。而行状数据,比如与客户相关的属性组合--名称、地址、邮编、采购订单号等等,则不具有这种优势。Aster Data和甲骨文数据库可以提供混合行/列存储功能。甲骨文的Hybrid Columnar Compression可以提供10:1的压缩比。
数据压缩
压缩比率不同很大程度上取决于数据本身,而且列存储并不总是最好的选择。如果在数据查询的时候需要调用很大属性,行存储方案可能会表现出更好的性能。事实上,行存储数据库经常被企业应用在处理混合查询的数据仓库中,而列存储数据库更多的是集中在海量数据查询中。
四、分类压缩、减少处理时间
类似连续性的列数据有利于压缩一样,我们也可以通过数据加载之前进行分类从而提高压缩比。在将数据装载进Sybase IQ至 强,comSCore使用Syncsort DMExpress软件对数据进行分类。该公司的CTO Michael Brown(图示)表示,它可以将10字节的 数据压缩成3、4个字节,而通过分类后的10个字节数据可被压缩成1个字节。“这将给我们存储海量数据提供了另外一种方式 。”
123下一页