坐看大数据之道:51CTO专访大数据专家郑玮

大数据已经渗透进人们生活的方方面面,比如商店促销决策、政治活动指引等等。究竟大数据目前发展状况如何?51CTO专访大数据专家郑玮将为您讲述大数据之道。

专访视频专题,请访问《坐看大数据之道》

NoSQL与大数据

NoSQL最早出现时,主要是Twitter这些社交媒体网站在用。因为他们需要处理每时每刻用户上传的海量图片、视频等非结构化数据。大数据概念提出之后,由于其在非结构化数据方面的优势,迅速融入大数据整体平台。

HBase在大数据平台发展较快

为什么之前XML数据库没有成功?NoSQL的数据反而成功了?郑玮提到NoSQL给了大家一个平台,可以用通用的技术去找数据,也可以去搜索那个数据。优点的地方应该是可以很快地去寻找你要找的东西,就是在很大的数据量里面能够拿出你想看到的东西。你的数据可以是各种各样形式的,不一定是一行一行结构化数据。

在这之前,你要用数据库的话需要知道你每个数据、每个数据都是什么意思,比如你的姓名、你的地址,你要先把这些东西讲好之后才能放到数据库。但是很多时候你根本不知道收到的数据是什么东西,也许有地址,也许有名字,也许有其它东西。但是我都不知道,你还是可以把它放到NoSQL里去,然后在分析的时候慢慢地决定这个是名字,这个是地址,这个是其它的信息,这是一种很不同的分析方法,你不一定要知道数据里到底有什么东西,你可以先存储,然后再用它的平台去寻找你要知道的东西,然后再说这个数据到底是什么意思。

这就是大数据和NoSQL完美结合的地方。不用预先定义数据形式,根据非结构化数据进行分析,正是大数据的强项所在。面对纷繁复杂的数据来源,传统关系型数据的能力受到了限制。

奥巴马:大数据时代的第一任美国总统

民主党的克林顿总统开启了美国信息高速公路计划,在其任期内实现了IT技术的一次飞跃。而2012年的美国大选,大数据技术成就了另一位民主党候选人——奥巴马。

51CTO编辑推荐:大数据时代的总统选举

在大数据分析技术的帮助下,奥巴马竞选团队可以从Twitter、Facebook等社交媒体中筛选出更有针对性的竞选广告投放点。比如在幕后支持巴拉克?奥巴马获取胜利的数据处理团队注意到,乔治?克鲁尼在西岸对40-49岁的女性粉丝有莫大吸引力,这个群体无疑是为了在好莱坞与克鲁尼——以及奥巴马共进晚餐而最愿意掏钱的一支人群。(译注:5月10日,乔治?克鲁尼为奥巴马举办筹资聚会,当晚筹得竞选连任资金1500万美元。)

而专访中,郑玮女士也谈到大数据是如何预测美国大选结果的。比如美国就有一个人叫做Nicksour,这次就是因为预测总统选举出名了。他本身就是一个数据科学家,他做的是把所有那些关系全局的数据拿出来,然后去做大数据平台分析。这次就是100%地把总统选举都算出来了,在奥巴马还没有当选的时候他就已经知道奥巴马会赢。而且他知道50个州里哪个州会选他,哪个州不会选他,一直到多少百分比都算出来了。

热热闹闹的美国大选,成为大数据第一次崭露头角的舞台。不论是前期竞选策略决定,还是后期的选情走向分析,都可以看到大数据的巨大力量。而政治活动的投入产出计算,其实也是一种“另类”的商业决策。

双11,大数据助力商业决策

上面美国大选的例子可以归纳到政治生活,而下面谈到的将是更具吸引力的商业决策。在2012年11月11日,中国网民守在电脑前翘首期待“光棍节”来临时,商家已经开始考虑使用大数据来指引自己的促销活动了。

郑玮女士给大家举了一个自己身边的例子。在美国黑色星期五大促销的日子里,她的一个单身女性朋友就经常收到买男士西装或者男性物品的促销单。这对于商家和消费者来说根本没有用处,双方都收到了无效的信息。

而通过大数据分析,商家就会知道怎么去分析。比如你是25-30岁的女性,你喜欢早上去上班有一辆车,另一辆车是你在度假的时候用的,可以把这些数据储藏起来,然后用大数据的平台,比如用Hadoop、NoSQL Analyse,可以帮助你做一些分析,也可以寄给你很有针对性的订单,比如50%是你最喜欢的牌子,或者你最喜欢的产品。现在的大数据是很普遍化了,不仅仅是针对一些很复杂的问题,每天生活上所有的事情当中都可以看到大数据的应用。

商家透过大数据分析,可以在较小成本代价的前提下,更加精确的制定合适的商业决策。对目标人群的购买喜好、消费习惯有了更加直观的认识。并对未来的营收有更加科学化的预测分析。

中小企业该如何建立自己的大数据

对于大企业来说,建立一个属于自己的大数据平台并不是什么难事。只需要投入资金,招募合适的人才就可以有很好的基础。似乎中小企业这类预算有限的用户,就无法接触到大数据了吗?

其实不然,透过Amazon等云计算平台,中小企业的CTO们可以在支付很少费用的情况下去Amazon租用一个Hadoop环境。这样就可以开始自己的Hadoop之旅了。云计算加上大数据,让中小企业有机会做自己的大数据平台。随着更多开源工具的加入,让更多企业有能力接触到以往只有大企业才能使用的技术。让他们在未来的市场竞争中,从技术的角度不会落后。

总结

可以预见的将来,大数据在中国会随着电商平台和社交网站落地。比如淘宝已经在支付宝账单中加入了对用户消费习惯的分析,这已经是国内迈向大数据众多例子中的一例。未来将会有更多的接口供给商家、用户去进行大数据分析挖掘。大数据的时代正在到来。

更多专访视频及文字,请访问《坐看大数据之道》

http://database.51cto.com/exp/bigdata1128/index.html

(责任编辑:蒙遗善)

时间: 2024-10-02 18:00:17

坐看大数据之道:51CTO专访大数据专家郑玮的相关文章

睢宁人摸索的6大经营之道和9大信条

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 一.激流勇进---如何在市场上立足 市场,是企业立足与奋斗的战场,小企业能否生存和壮大,便取决于是否有成功的市场策略.市场开拓要求企业善于发现商机,善于发现市场,甚至通过制造需求创造市场;市场占领要迅速,以确保竞争优势;市场竞争则要维持合作与竞争相结合,为企业赢得良性竞争和持续发展的市场空间. 二.创意是金---如何拥有让客户喜爱的产品 只有

【好书试读】大数据处理之道

开始试读:https://yqfile.alicdn.com/e62f864d518c11f5d19f53d0719de69c.pdf 天猫购买链接:大数据处理之道 近年来,"大数据"已然成为IT界如火如荼的词,与"云计算" 并驾齐驱,成为带动IT行业发展的两列高速火车.尤其是在物联网快速发展的时代,数据已经被称为新的资源,是支撑物联网发展的基石. 那么,如何把"死"的数据变成真正有效的"资源",成为近年来IT界人士共同思考的

规划为道 同方数据资源体系玩转大数据

文章讲的是规划为道 同方数据资源体系玩转大数据,大数据的应用前景之大已经毋庸置疑.据Gartner发布的<大数据驱动基础架构>报告显示,2013年大数据带动的IT支出有望达到340亿美元;到2016年,全球在大数据方面的总支出将达到2320亿美元.Gartner还强调,大数据工具在2014年将被视为一种必要投资. 当前,越来越多企业将大数据的分析结果作为其判断未来发展的依据.同时,传统的商业预测逻辑正日益被新的大数据预测所取代.不过,海量数据只有在得到有效治理的前提下才能进一步发展其业务价值.

大咖 | 王汉生:从数据到价值的转化,回归分析的“道”与“术”

学过统计学的同学们都知道一件事情,回归分析师数据分析的一个非常重要的模型方法.而且这些模型很可能是线性的.非线性的,也可能是参数的.非参数的,甚至是一元的.多元的,低维的.高维的,不尽相同.所以,把数据转化为价值,需要一个非常重要且精妙的思想方法:回归分析. 另外,这些都是在"术"的层面讨论回归分析.除了"术",回归分析还有一个更高的"道"的层面. 回归分析的"道" 在这个层面,回归分析可以被抽象成为一种重要的思想.在这种思想

数据版本管理,请各位大神帮忙看一下

问题描述 数据版本管理,请各位大神帮忙看一下 数据版本标签,创建新的文件型数据源,并将指定的数据集导入到该数据源中,同时,该数据源通过版本管理的XML文件,记录该数据源的版本,数据源版本时间,数据源版本描述.

c#-数据版本管理,请各位大神帮忙看一下

问题描述 数据版本管理,请各位大神帮忙看一下 数据版本标签,创建新的文件型数据源,并将指定的数据集导入到该数据源中,同时,该数据源通过版本管理的XML文件,记录该数据源的版本,数据源版本时间,数据源版本描述.

坐拥两大国字头超算中心 广东大数据产业“近水楼台”

所有的科技创新都离不开计算.两大国字头超算中心落地广东,很大程度缘于这一地区的科技产业基础,以及相应产生的对超级计算的巨大需求. 大数据时代,在面对和处理越来越海量的数据时,一个最可靠的助手是"超级计算机",这是计算机中功能最强.运算速度最快.存储容量最大的一类,多用于国家高科技领域和尖端技术研究.超级计算机的运算能力,往往也是一个国家和地区自主创新能力的体现之一. 从上世纪70年代起,超级计算机就已经成为中国的战略储备资源,它所具备的高性能优势,能为大数据应用提供强大的计算能力.海量

sql-SQL数据抽取,出现数据类型转换错误,求大神帮忙看一下。

问题描述 SQL数据抽取,出现数据类型转换错误,求大神帮忙看一下. select a.patient_id+'_'+cast(a.item_no as varchar(20))+'_'+cast(a.ledger_sn as varchar(20)) pk_pay,null pk_dcpv,null pvcode,'SDDYRMYY_G' code_group,'SDDYRMYY' code_org , cheque_type code_pay_mode,b.name name_pay_mode

产业领袖的大数据之道

主持人:<SP/计算机产品与流通>执行总编 余文 嘉 宾:IBM云计算总经理 王胜航 Intel数据中心软件部中国区CTO 苗凯翔 Sap副总裁战略合作与渠道发展总经理 潘应麟 大数据的定义 主持人:英特尔是怎么看大数据,是怎么为大数据定义的? 苗凯翔:我们都知道芯片速度18个月翻一倍的摩尔定律,数据的爆炸速度也可以说是相似的.2011年,全球的数据总量是1.8ZB,而年增长率平均是60%左右,到2012年的数据量将会达到2.7ZB.我们可以看出大数据的特点一是量非常大,一是成长速度非常快,一