大数据,不是说有就能有

2016年可谓是中国的“大数据之年”,不仅国家推行“大数据战略”,倡导发展互联网新经济,各行各业也都在谈论大数据的前景。国务院总理李克强5月出席大数据产业峰会并提出大数据驱动信息产业升级的战略导向。大数据一时成为了各大企业都争相推拥的热词。

单纯从字面理解,大数据描述的是一个巨量数据的概念。而在实际的应用上,“大数据”更类似“光年”一样,当光指引到时间中,就成为了描述距离的单位,而把海量的有效数据进行有针对性的整合分析时,他就可以对用户行为进行描述,为我们的生活提供各种各样的决策和指引。

随着国家大数据战略的推行,“数聚”、“精准”等概念纷纷涌现。然而,在各大品牌层出不穷的新玩法下,“大数据”概念被滥用的情况越来越严重。笔者之见,“大数据”能力需要有漫长积蓄过程,绝非“想用就能用”。

在品牌宣传上,大数据的概念常常被有意无意地偷换,主要表现在,“有数据”并不等于大数据。大数据存在5V的特征,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。除了存有数据的基本条件外,还需满足以上五个维度。因此,大数据是一个非常严格的概念。

一个企业的大数据实力如何,主要基于其拥有的数据资产的数量和质量,同时也取决于数据的维度,及对海量数据的开发运用能力(内部算法)。因此不少巨头在不断扩张自己数据库容量的同时,也在通过并购整合,拓宽其自身数据资产的覆盖度和完整度,同时提升自己对数据的运算能力。

以阿里巴巴为例,阿里拥有庞大的用户群体以及十多年的用户数据积累。其大数据资产,无论从数量还是质量上,在中国处于绝对领先地位。但究其根本,其主要数据维度主要集中在电商领域。随着阿里巴巴不断的跨领域扩张,其大数据维度也随之丰富起来。UC浏览器、高德地图、优酷土豆、新浪微博等多个领域产品的加入,阿里大数据基于移动信息领域的矩阵逐渐扩展。截至目前,据不完全统计,阿里大数据矩阵至少包含了电商、阅读、社交、搜索、地图、视频、应用、游戏等维度的用户行为数据,从覆盖率和完整度上,应该是目前BAT三大巨头中最具优势的。

然而,企业收集到“多维度”的数据只是第一步,如何运用、创造价值是接下来面临的考验。在数据价值的“落地”上,各个企业也正在积极探索。

移动互联时代深受“信息过载”的诟病,“如何实现信息与人更为精准的连接”是整个行业未来探索的方向。为了能够给用户提供最佳的内容获取决策,除了需要对数据宽度与厚度进行累积,还需要让数据变得更加“聪明”。通俗来讲,企业需要能够对用户产生的每个数据进行统计、分析与开发,并以此帮助用户做出决策。

以UC为例,从阿里大数据中的高德地图POI数据可以知道用户当下处于的特定场景,根据对“时间+地点”的描述分发用户当下最需要的资讯;此外,在淘宝、神马搜索、优酷等多维数据的互通下,可以知道用户对不同类型资讯的需求。此外,UC的算法还能实现根据不同领域按权重绘画属于该用户的用户画像,在基本的人群聚类下再继续进行需求分层。

以上用户数据的分析及处理,将形成个人定制化数据库,之后,再根据算法进行精准推送,目前常用的推荐算法有三种:

第一代基于“协同过滤”,即收集大量的用户浏览记录,通过相似行为进行关联推荐。由于算法简介,逻辑清晰,可行性强,这种算法被大多数企业采用,例如今日头条、天天快报等都是采用的这种算法,但其也存在缺陷。由于获取数据的手段有限,数据不能够真实的反应出用户对信息的需求,很容易让用户深陷在自己的“兴趣爱好”当中;

第二代基于“搜索”,在分析了用户的核心兴趣点之后,通过隐式搜索的方式,给用户结果,这是在搜索引擎全面普及后出现的数据算法。但是与第一代算法类似的是,不同的人搜索相同的信息有不同的目的,而不同的时间地点搜同样的信息也有不同的目的,用同样的标准衡量用户行为,容易产生误判;好处是,对第一代算法所产生的“信息孤岛”效应有了较大的减弱,较容易形成兴趣圈群。在这方面做得比较好的是一点资讯。

第三代基于“社群+场景”,从“人”的角度,切入到具体的社群,实现“人以群分”;从内容的角度,切入到具体场景,这也是目前算法的发展趋势,比较典型的是以阿里大数据矩阵为依托的UC头条。

不过,就目前而言,实现“社群+场景”精准分发还处于一个比较理想的阶段,体现在“社群+场景”有一系列苛刻的要求,基础要满足的就是精准的用户画像绘制。眼下有此能力的恐怕也只有BAT三家。

当然,一个行业的成功除了能够给用户带来改变,自身还应具备优秀的商业化能力,以实现行业的可持续发展。Facebook、Twitter等企业对大数据在信息流里的商业模式早有示范。其中,Facebook移动广告营收公司总营收的82%(2016年Q1财报),是基于大数据的精准定向广告流为收入带来快速增长。而这种模式能够适用并持续增长,其主要原因是B端与C端的互利,B端的广告在更为精准、高效推送到用户外,C端获取了精准的信息,不会影响用户体验。

如以上所列举的“在高德地图里形成固定的商圈,在UC头条相应商圈的资讯就会推送给你”,这样一次信息与人的精准连接,对用户来说,带来是获取价值信息时间成本的缩小;对内容提供者来说,是潜在受众价值的挖掘;而对广告主而言,是高效、精准传递受众的价值实现。在这里面,满足的是消费测、供给侧、商业测三方需求。

大数据时代不止于“大”,企业对数据资产的厚度与深度的积累成为了决定大数据成败的关键,在大数据被日益滥用的今天,笔者更希望在时代大趋势下,大数据能真正落地,至少不止一个阿里巴巴。

====================================分割线================================

本文转自d1net(转载)

时间: 2025-01-01 16:07:12

大数据,不是说有就能有的相关文章

阿里巴巴大数据学院落地成都,计划5年培养2000名高端专业人才

在5月23日的云栖大会·成都峰会上,成都信息工程大学与阿里云联合宣布共建"成都信息工程大学·阿里巴巴大数据学院",组建立足四川.面向全国.放眼全球的新型示范性大数据学院.   阿里云重视对云计算.大数据及人工智能整体产业的培育.这是全国第三所由阿里巴巴与高校联合冠名的大数据人才培养学府,是全国第一所同时开展本科生与硕士研究生培养的大数据学院.   成都信息工程大学由四川省和中国气象局共建,是四川省重点发展.以信息学科和大气学科为重点的多科性大学,入选了中国首批"卓越工程师教育

大数据技术在发展 挑战与机遇并存

大数据技术是在传统数据处理手段无法应对海量数据的实时需求的情况下,采用新的信息技术来应对大数据爆发进行数据处理的技术.大数据技术一般可以包括基础架构支持.数据采集.数据存储.数据计算和数据展现交互等. 大数据技术的分类 大数据技术涵盖的范围十分广阔.基础架构支持方面主要包括了支撑大数据处理的基础架构级数据中心管理.云计算平台.云存储设备及技术.网络技术.资源监控等技术.而为了处理数据,则需要有大规模物理资源的云数据中心和具备高效的调度管理功能的云计算平台的支撑. 数据采集技术方面包含了数据采集的

合理利用大数据 助力中国各产业加速发展

随着物联网的应用及智慧产业的爆发,"大数据"这个词汇再次高频度地出现在人们的视线中,围绕大数据做文章也相应催生出了农业大数据.工业大数据.健康大数据.旅游大数据等一批行业领域的大数据概念.作为各行各业智能化变革的重要组成部分,"如何利用大数据"成为传统企业和新兴互联网厂商争相涌入的新一片蓝海. 合理利用大数据助力中国各产业加速发展 智慧产业的应用简单来说,需要依托传感前端的智能感知或者数据采集,经过数据筛选.分析等处理,最终根据业务需求提供服务应用的一个过程.其中,

115期:在线大数据技术峰会回顾合集!

本期头条   票选最美云上大数据暨大数据技术峰会上,阿里云飞天一部计算平台高级专家无庸为大家带来题为"高可用大数据计算服务如何持续发布和演进"的演讲.本文先对MaxCompute架构进行了介绍,接着重点介绍在大数据计算服务下,高可用服务持续改进和发布的工具,包括Playback工具.Flighting工具和灰度上线.细粒度回滚等,点击查看. • [资料合集]在线大数据技术峰会:讲义PDF+活动视频! • 提速1000倍!阿里率先采用Intel Optane SSD • 东京见闻:快速走

【资料合集】在线大数据技术峰会:讲义PDF+活动视频!

回顾大数据技术领域大事件,最早可追溯到2006年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术.这是个技术人的好时代,仅数据库领域热门DB就有300+,围绕着Hadoop生态圈的大数据处理技术更是繁花似锦.然而着眼当下,大数据在行业内的实际落地仍然不是件简单的事情,大数据创业成功的案例更是少之又少. 1. MaxCompute 2.0 性能优化揭秘 演讲视频:http://yq.aliyun.com/webinar/play/188 PDF下载:h

互联网已死-大数据的未来在哪里?

一.大数据的未来在哪里 1.互联网已死 大数据的未来在哪里?以BAT为代表的互联网公司之外是否还会有新的互联网巨无霸诞生,基于技术和资本两方面的考虑,几无可能,未来的互联网世界只能是一个几家独大,行业细分的市场,新生互联网公司的机会在于细分,而不在于挑战传统互联网巨无霸.具体到大数据应用来讲,大数据在互联网行业的应用也必将是一个行业细化的过程,而BAT的触角几乎无处不在,新公司的崛起任重而道远,大数据发挥价值的空间也就变成了BAT手中的玩具. 2.传统行业才是大数据的春天 大数据向传统行业的渗透

BDTC PPT集萃(一):BAT、华为、网易等分享的大数据架构

从2008年60人规模的"Hadoop in China"技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验.同时,2014年12月12至14日,第八届中国大数据技术盛会将一如既往的引领当前领域内的技术热点,分享行业实战经验. 为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT

超级人工智能:大数据的未来?

在百度大数据开放大会上,搞计算机学术理论的怀进鹏校长的演讲犹如给所有听众的一记闷棍,怀校长的学术演讲把大家弄得云里雾里,把所有人弄晕了,现场能够听懂的绝对是少数,可能都会觉得怀校长有点像个外星人一般在那自顾自的演讲.但我作为一个曾经有志从事人工智能研究但失之交臂的又是学计算机毕业的人却越听越兴奋,冥冥中似乎找到了未来的人工智能所能抵达的可能性,那么我现在就尝试把怀教授的演讲转换为人类也能够听懂的语言吧. 一,理解大数据 1,当前大数据的四大特征:规模大.变化快.种类杂.价值密度低. 其实这理解起

挑战大数据 浅析NoSQL技术

目前我们都生活在一个庞大的数据存数时代,然而大数据及其底层技术NoSQL也正成为了互联网的一个流行语.对于谷歌以及Facebook,IBM这样的全球互联网企业,NoSQL这种高扩展的非关系型数据库存数的使用往往已经超过关系型数据库.事实上,在海量数据和半结构化数据的一些问题过程中,已经诞生了一系列新型数据库产品,而这些数据库我们称之为NoSQL. 2013年4月26日-27日,由51CTO传媒集团旗下WOT(World Of Tech)品牌主办的2013大数据全球技术峰会在北京富力万丽酒店召开.

大数据 flume ng-大数据:flume-ng启动报错

问题描述 大数据:flume-ng启动报错 flume-ng1.5.0启动报错java.lang.OutOfMemoryError: Direct buffer memory. flume-env.sh内存配置4G绝对足够了,请求解决方法 解决方案 同样的flume环境,部署到不同的linux机器上,有些机器正常,有些机器启动就报这个错误 解决方案二: 检查下jvm的配置,jvm有最大内存上限,尽管物理机器有更大的内存.