几十年前,当Oracle、SQL等数据库技术风靡全世界的时候,广大的IT人士可能不会想到在几十年后的今天,一堆堆毫无计划性、毫无关联的社交网络访问记录、图片,或者音视频会成为用户手心里的“宝贝”,这些数据在当今可能会成为一个生意人致胜的法宝。而对于十几年前,甚至几年前开始建设数据中心的管理人员来说,也不会预料到后端的存储空间会被大量的非结构化数据填满??
非结构化数据时代来临
是的,大数据时代来了,而且来势汹汹。大数据并不是一项技术,而是由于不断增长的数据量和数据种类而逐渐衍生出来的一种现象。搜索一下大数据的定义也可以发现,各家厂商都在基于自身的理解去定义大数据。以NetApp为例,其大中华区系统技术及专业服务部总监何英华表示,NetApp认为大数据应该包含三大要素,分别是:大分析,帮助用户获得价值;高带宽,让数据处理速度更快;大内容,指的是不丢失任何信息并实现高扩展性。而Teradata天睿公司大中华区产品技术及销售支持副总经理张锦沧则从四个维度解释了大数据的概念——三个V和一个C。三个V分别指的是数据量大、数据种类多和数据增长速度快。一个C指的是处理、升级或利用大数据的分析手段比处理结构化数据要复杂的多。
虽然每个厂商对于大数据的理解都不同,但其中一个共通点就是大数据包含了大量的非结构化数据,包含了诸如图片、音视频、邮件、社交网络数据等等与传统关系型数据完全不同的数据类型。
ESG中国区总经理王丛认为,大数据与增长量有关,但是不代表增长快的就是大数据。从存储角度来看,数据量的增长是一种挑战,如何将这些增速飞快的数据进行存储并合理规划存储空间,是亟须解决的问题。而从数据分析角度来看,大量的非结构化数据的增长在为用户带来挑战的同时,也带来了很多机遇。对于以交易型数据为主的行业,例如金融、零售业等,对数据进行分析,提炼出具有商业价值的信息将是此类用户面临的大数据挑战。而对于像广电IPTV、网游、社交网络等需要存储大量的音视频、图片、社交网络数据等等非结构化数据的用户来说,后端存储如何应对飞速增长的庞大数据量,是他们面临的大数据挑战。王丛表示不同种类的行业,面临的大数据挑战也不可等同视之。
(责任编辑:蒙遗善)