大数据不只是数据大 全面解析大数据

在写这篇文章之前,我发现身边很多IT人对于这些热门的新技术、新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据和你有什么关系?估计很少能说出一二三来。究其原因,一是因为大家对新技术有着相同的原始渴求,至少知其然在聊天时不会显得很“土鳖”;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然。

我希望有些不一样,所以对该如何去认识大数据进行了一番思索,包括查阅了资料,翻阅了最新的专业书籍,但我并不想把那些零散的资料碎片或不同理解论述简单规整并堆积起来形成毫无价值的转述或评论,我很真诚的希望进入事物探寻本质。

如果你说大数据就是数据大,或者侃侃而谈4个V,也许很有深度的谈到BI或预测的价值,又或者拿Google和Amazon举例,技术流可能会聊起Hadoop和Cloud
Computing,不管对错,只是无法勾勒对大数据的整体认识,不说是片面,但至少有些管窥蠡测、隔衣瘙痒了。……也许,“解构”是最好的方法。

怎样解构大数据?

首先,我认为大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

其次,想要系统的认知大数据,必须要全面而细致的分解它,我着手从三个层面来展开:

第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术,技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践,实践是大数据的最终价值体现。我将分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

和大数据相关的理论

特征定义

最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

业界(IBM 最早定义)将大数据的特征归纳为4个“V”(量Volume,多样Variety,价值Value,速Velocity),或者说特点有四个层面:

第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);

第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。

第三,价值密度低,商业价值高。

第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。

其实这些V并不能真正说清楚大数据的所有特征,下面这张图对大数据的一些相关特性做出了有效的说明。

古语云:三分技术,七分数据,得数据者得天下。先不论谁说的,但是这句话的正确性已经不用去论证了。维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。书中,作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Farecast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。

那么,什么是大数据思维?维克托·迈尔-舍恩伯格认为,

需要全部数据样本而不是抽样;

关注效率而不是精确度;

关注相关性而不是因果关系。

阿里巴巴的王坚对于大数据也有一些独特的见解,比如,

“今天的数据不是大,真正有意思的是数据变得在线了,这个恰恰是互联网的特点。”

“非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。”

“你千万不要想着拿数据去改进一个业务,这不是大数据。你一定是去做了一件以前做不了的事情。”

特别是最后一点,我是非常认同的,大数据的真正价值在于创造,在于填补无数个还未实现过的空白。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”.价值含量、挖掘成本比数量更为重要。

价值探讨

大数据是什么?投资者眼里是金光闪闪的两个字:资产。比如,Facebook上市时,评估机构评定的有效资产中大部分都是其社交网站上的数据。

如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”.

Target 超市以20多种怀孕期间孕妇可能会购买的商品为基础,将所有用户的购买记录作为数据来源,通过构建模型分析购买者的行为相关性,能准确的推断出孕妇的具体临盆时间,这样Target的销售部门就可以有针对的在每个怀孕顾客的不同阶段寄送相应的产品优惠卷。

Target的例子是一个很典型的案例,这样印证了维克托·迈尔-舍恩伯格提过的一个很有指导意义的观点:通过找出一个关联物并监控它,就可以预测未来。Target通过监测购买者购买商品的时间和品种来准确预测顾客的孕期,这就是对数据的二次利用的典型案例。如果,我们通过采集驾驶员手机的GPS数据,就可以分析出当前哪些道路正在堵车,并可以及时发布道路交通提醒;通过采集汽车的GPS位置数据,就可以分析城市的哪些区域停车较多,这也代表该区域有着较为活跃的人群,这些分析数据适合卖给广告投放商。

不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。

从大数据的价值链条来分析,存在三种模式:

手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。

没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。

既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。

未来在大数据领域最具有价值的是两种事物:

拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;

还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。

Wal-Mart作为零售行业的巨头,他们的分析人员会对每个阶段的销售记录进行了全面的分析,有一次他们无意中发现虽不相关但很有价值的数据,在美国的飓风来临季节,超市的蛋挞和抵御飓风物品竟然销量都有大幅增加,于是他们做了一个明智决策,就是将蛋挞的销售位置移到了飓风物品销售区域旁边,看起来是为了方便用户挑选,但是没有想到蛋挞的销量因此又提高了很多。

还有一个有趣的例子,1948年辽沈战役期间,司令员林彪要求每天要进行例常的“每日军情汇报”,由值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况。那几乎是重复着千篇一律枯燥无味的数据:每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少,枪支、物资多少……有一天,参谋照例汇报当日的战况,林彪突然打断他:“刚才念的在胡家窝棚那个战斗的缴获,你们听到了吗?”大家都很茫然,因为如此战斗每天都有几十起,不都是差不多一模一样的枯燥数字吗?林彪扫视一周,见无人回答,便接连问了三句:“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”林彪司令员大步走向挂满军用地图的墙壁,指着地图上的那个点说:“我猜想,不,我断定!敌人的指挥所就在这里!”果然,部队很快就抓住了敌方的指挥官廖耀湘,并取得这场重要战役的胜利。

本文转自d1net(转载)

时间: 2024-09-25 10:44:46

大数据不只是数据大 全面解析大数据的相关文章

陆金所计葵生: 深度解析大数据和AI对未来金融影响

近日,陆金所联席董事长兼CEO计葵生在北京大学数字金融研究中心"数字金融的中国时代"第二届年会上发表主题演讲,深度解析了大数据和AI对金融的影响.计葵生认为,大数据和AI理财能增加市场透明度,让机构更精准服务投资者,帮助客户分散投资风险,提高金融运行效率,支持实体经济发展. 计葵生认为,大数据和AI将对金融业产生巨大影响.如帮助机构从多维度去了解个人借款方的信用状况,快速作出判断."只需要几分钟甚至几秒钟来作出判断可否借钱给他,这会增多借款人的借款机会."人工智能和

独家干货|基于大数据的人体组织微结构的解析与构建

◆ ◆ ◆ 导读  清华大数据思享会医疗大数据系列之"基于大数据的人体组织微结构的解析与构建"于2016年09月22日下午在清数D-LAB成功举办. 深圳艾科赛龙公司创始人赵小文深刻阐述了医学大数据的技术架构,以及对骨骼.血管等人体组织微结构的量化简析和构建的方法,并将这种方法延展到蛋白结构的量化解析和构建上,为再生医学的发展奠定了个性化的组织工程学基础.以下为演讲全文: (感谢主办方提供演讲速记及照片,速记整理|刘道全) ◆ ◆ ◆ 一.技术趋势 医学大数据的架构具有很强的扩展性,在

bmob-求大神帮助,使用Bmob服务器,获取数据解析数据???我还使用异步加载

问题描述 求大神帮助,使用Bmob服务器,获取数据解析数据???我还使用异步加载 //我建立了Bean,里面有一个ImageView,两个TextView, //ImageView id=imgView; //TextView id=tittle; //TextView id=content; //BaseAdapter在最下面列出来: //ListView布局是activity_main; //item布局是item_layout; 我都是按照视频写的,基础差,请见谅 package com.

json-关于volley框架解析JSON数据的问题 菜鸟一只,希望大神帮忙

问题描述 关于volley框架解析JSON数据的问题 菜鸟一只,希望大神帮忙 现在想做一个 天气预报的APP 我使用volley框架得到json数据 为何list 中没有我要 添加的数据 解决方案 你先打印json解析的city和week!看看是否获取到了!另外你这个数组这样装东西,怎么看都怪怪的!估计问题出在你这数组赋值上,我没这样使用过!你可以测试看看 解决方案二: 没有抛出异常吗 没看到list的实例化语句呀

解析大数据与工业之德国工业4.0

云栖Tech Day第二十四期<工业大数据助务智能制造>,博拉科技CEO周公爽为大家带来<大数据与工业4.0>的分享,分享的主要内容如下: 博拉科技主营三大业务:一个是机器人自动化,主要是汽车零部件行业:第二个是工业物联网系统,我们特指MES系统,是根据国际ISA95标准设计的MES系统:第三块是基于大数据采集和分析的SaaS运维平台,主要针对数控领域.今天分享的主题跟德国工业4.0有关,我们来看看德国作为工业4.0的倡导者和发起者,他们目前是怎么看待工业4.0,他们是如何来落地工

一篇文章全面解析大数据批处理框架Spring Batch

如今微服务架构讨论的如火如荼.但在企业架构里除了大量的OLTP交易外,还存在海量的批处理交易.在诸如银行的金融机构中,每天有3-4万笔的批处理作业需要处理.针对OLTP,业界有大量的开源框架.优秀的架构设计给予支撑;但批处理领域的框架确凤毛麟角.是时候和我们一起来了解下批处理的世界哪些优秀的框架和设计了,今天我将以Spring Batch为例,和大家一起探秘批处理的世界. 如今微服务架构讨论的如火如荼.但在企业架构里除了大量的OLTP交易外,还存在海量的批处理交易.在诸如银行的金融机构中,每天有

解析大数据带来的利好与隐患

根据佩尤研究中心(Pew Research Center)的一项最新的调查研究显示:大数据,运用得当的话,可以帮助我们节省能源,治愈疾病,更好地预测趋势.但也有人担心如果滥用大数据的话,将会使得大政府和大企业损害广大民众的利益. 大的数据确实可以为我们做很多事情,但并非所有事情都是好的.随着物联网的联机,技术可以帮助我们节约能源,治疗疾病和预测趋势.但也有人担心大数据将不成比例地被控制和使用,将会使得大政府和大企业损害广大民众的利益.据佩尤研究中心的一项最新的题为<未来http://www.al

深度解析大数据在公安领域的应用

近一两年,大数据开始在公安等行业领域得到普及应用,除了行业自身的特殊要求外,大数据也带动了相关行业的需求发展.未来,基于大数据的行业应用会变得更加深入,更多的相关厂商也会涉及其中,大数据在公安领域的商业模式架构逐渐清晰起来. 在安防的细分领域中,大数据在公安及智能交通探索应用得比较早,相关的解决方案和技术也比较成熟,在广西等地也已经有相关的项目落地,大数据应用系统已经上线运营,取得了预期的效果. 项目应用前景看好 以相关的案例来讲,在广西公安厅投入使用的大数据系统中,整个项目是以自治区的总数据为

大数据基础知识问答----spark篇,大数据生态圈

Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点:但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法. 2.Spark与Hadoop的对比(Spar