《数据科学家修炼之道》一1.1 深挖大数据

1.1 深挖大数据

大数据含有与我们身边的业务难题息息相关的丰富信息。举例来说,如果你是一个电商公司的经理,你就可以在你公司网站上收集到关于你客户和访客的丰富信息,若能对此善加利用,你就能够增加公司的销售额、提升网站设计并改善客户服务,它还能为你提供市场策略和提升公司的整体策略的建议。这些都是由居住在你的服务器中的0和1实现的。你只需要从你的资源中分出一小部分,并从这些数据中间提炼出信息。这当然不是一桩赔本买卖,我们稍后会再回到这个例子。尽管有些网络数据披着大数据的外衣,但并不是每一种数据融合都可以叫做大数据。这主要是因为大数据的4个V特性。[1]

如我们之前所看到的,它们有如下几个特性。

  • 体量(Volume):大数据由大量数据组成,从几个TB到几个ZB。这些数据可能会分布在许多地方,通常是在一些连入因特网的计算网络中。一般来说,凡是满足大数据的几个V的条件的数据都会因为太大而无法被单独的计算机处理。单单这一个问题就需要一种不同的数据处理思路,这也使得并行计算技术(例如MapReduce)得以迅速崛起。
    高速(Velocity):大数据是在运动着的,通常处于很高的传输速度之下。它经常被认为是数据流,而数据流通常是很难被归档的(考虑到有限的网络存储空间,单单是高速就已经是一个巨大的问题)。这就是为什么只能收集到数据其中的某些部分。如果我们有能力收集数据的全部,长时间存储大量数据也会显得非常昂贵,所以周期性的收集数据遗弃一部分数据以节省空间,仅保留数据摘要(如平均值和方差)。这个问题在未来会显得更为严重,因为越来越多的数据正以越来越快的速度所产生。
  • 多样(Variety):在过去,数据或多或少是同构的,这种特点也使得它更易于管理。这种情况并不出现在大数据中,由于数据的来源各异,因此形式各异。这体现为各种不同的数据结构类型,半结构化以及完全非结构化的数据类型。结构化数据多被发现在传统数据库中,数据的类型被预定义在定长的列字段中。半结构化数据有一些结构特征,但不总是保持一致(举例来说,看一看JSON文件),使得这种类型难以处理。更富于挑战的是非结构化数据(例如纯文本文件)毫无结构特征可言。在大数据中,更常见的是半结构化数据,而且这些数据源的数据格式还各不相同。
    在过去的几年里,半结构化数据和结构化数据成为了大数据的主体数据类型。
  • 准确(Veracity):这是一个在讨论大数据时时常被忽略的一个属性,部分原因是这个属性相对来说比较新,尽管它与其他的属性同样重要。这是一个与数据是否可靠相关的属性,也就是那些在数据科学流程中会被用于决策的数据(而这不同于与传统的数据分析流程,我们会在第11章中看到)。精确性与信噪比(signal-to-noise ratio)有关。例如,在大数据中发现哪些数据对商业是真正有效的,这在信息理论中是个十分重要的概念。由于并不是所有的数据源都具有相等的可靠性,在这个过程中,大数据的精确性会趋于变化。如何增加可用数据的精确性是大数据的主要挑战。注意,即使有些数据拥有这4种属性中的一种或多种,也不能被归类为大数据。大数据拥有以上全部4种特性。大数据是一个重要课题,因为它并不容易处理,即使是对于一台超级计算机,也很难独自有效地展开分析。
    在我们最开始的案例中,一个你会面临的典型数据集可能会有以下性质。

数据量会非常大,并伴随着更快的增长趋势,特别是如果你的网站在监控访问者的各方面行为时。这些数据会很轻易地在一年之内达到几个TB。

由于访问者来来去去以及不断有新的访问者加入,数据会持续流动。这会变成在你服务器上连续的网络活动,也就是从网站中涌入你的服务器日志的数据流。

这些从访问者身上收集来的数据会有很大的不同,从简单的网站统计数据(例如在每一页上所花费的时间、访问总时间、访问了哪些页面,等等)到在网站中输入的文字(假设你有一些评论系统,例如大多电商网站)以及其他类型的数据(例如,消费者对各类商品的评分以及交易记录, 等等)

很自然地,并不是你在服务器上所观察到的一切都是值得信任的。有一些访问可能来自于黑客的机器人或者是来自于一些用户的不良目的,而有部分访问者可能是你的竞争者,正在暗中观察你!一些访问者会在他们的评论中写错别字,或是因为一些原因留下一些随意的或是无用的信息。即使你有一些过滤系统,你的网站上不时地收到一些无效数据也是不可避免的。

基于以上所有的观察,你还认为你在公司处理着大数据吗?为什么?如果你理解了上面说的这些概念,你应该自信并正面回答这些问题。每一个描述这个公司的数据情形的要点都与这几个V中的某一个有关。

时间: 2024-09-22 18:39:18

《数据科学家修炼之道》一1.1 深挖大数据的相关文章

《数据科学家修炼之道》一第1章 数据科学与大数据

第1章 数据科学与大数据 数据科学家修炼之道我们今天面临着诸多来自大数据和其他数据分析带来的困难,而数据科学正是对这些挑战的回应.在介绍中,我们简要剖析了一下大数据,但那仅仅是"冰山的一角".事实上,围绕着大数据,能说的太多了,单凭这一章仍无法得其全貌.但是,你能够通过本章认识到大数据在今时今日的重要性.更重要的是,这一章能让你拨开大数据的迷雾(过去几年里日益弥散的炒作),让你明白数据科学的重要性. 大数据是当今商业的基础资产.大数据以及大数据相关的技术能够得到这么广泛地利用绝不是巧合

《数据科学家修炼之道》一第2章 数据科学的重要性

第2章 数据科学的重要性 数据科学家修炼之道在上一章中,我们对数据科学的来历和它与大数据的关系有一个粗浅的了解.我们同样介绍了这个领域的重要里程碑以及为什么这些年它会变得这么流行.然而,这仅仅是轻轻地掠过了表面,因为数据科学仍有很多的内容等待我们揭开.为了能更好地理解数据科学,我们即将翻开历史,检视它所包含的新规则,以及它所带来的新思维,同样,还有它所带来的新变化.

《数据科学家修炼之道》一2.3 新思维与随之而来的变化

2.3 新思维与随之而来的变化 到现在为止,你大概能认识到数据科学不仅仅是一些聪明的工具.方法论和运用方法了.这是一种对数据的全新的整体认知.很自然地,这种规则转变带来了人们在处理相关项目时的方式,如何参与亟待解决的问题,以及如何以从业者的身份使自己成长. 数据科学需要我们更系统地思考,将对问题的创见性方法与实际情况结合在一起.这就好像是以一个优秀的建筑师一样的思维方式,将艺术的角度(通过设计)与工程本身,以及时间的管理一起结合起来.规划对于使用大数据来说是至关重要的,尽管是同一件任务,但不同的

深挖大数据这座21世纪“钻石矿”

大数据是近几年来兴起的一个热门词汇,2014年,李克强总理在作<政府工作报告>时就曾表示,要设立新兴产业创业.创新平台,在新一代移动通信.集成电路.大数据.先进制造.新能源.新材料等方面赶超先进,引领未来产业发展.这是大数据首次进入<政府工作报告>,也表明大数据作为新兴产业,得到了国家层面的大力支持. 近日,伴随中国大数据产业峰会暨中国电子商务创新发展峰会在贵阳落下帷幕,大数据的火热程度甚至超过了"互联网+". 李克强总理在中国大数据产业峰会暨中国电子商务创新发

深挖大数据“钻石矿” 共享经济成资本追逐热点

2016年,<政府工作报告>中首次引入了共享经济概念,李克强总理亦将共享经济列为深挖大数据"钻石矿"的一大利器. 目前,共享经济模式正在悄然改变我们的生活.Uber和滴滴改变了出行,Airbnb和途家则改变了住宿,而最近兴起的分答则改变了人们的知识分享方式. 专家认为,共享经济代表着未来消费,而这无疑是投资的最佳风口.数据显示,截至2015年末,在中国估值超过10亿元的分享经济相关企业已超过30家,累计估值金额超过700亿元. 不管是创业者还是投资方,都普遍看好其行业发展前

《数据科学家修炼之道》一2.1 数据科学领域的历史

2.1 数据科学领域的历史 "数据科学"这一术语的流行要早于"大数据"的出现(就像"数据"一词要早于"计算机(computer)"400年出现).1962年,当John W. Tukey[1]写了<数据分析的未来>(The Future of Data Analysis)[2],他预见了数据分析的新方法的崛起相比于方法论来说更像是一门科学.1974年,Peter Naur在瑞典和美国出版了<计算机方法的简明调

陕西深挖大数据“钻石矿”

每隔一段时间,西安美林数据挖掘中心的工程师们就会扮演一次预测师的角色:他们综合某一地区经营企业历史售电量数据,区域历史天气数据.区域历史经济发展指标数据等多种数据,通过多种大数据算法,准确测算出这个区域未来一年每个月份的售电量预测数据.预测数据和实际数据的误差只有1%.而在此前,售电量预测由专家们根据经验来预测,误差率达到15%. 人在干,数在转,云在算.大数据正在转化为现实的生产力,蕴藏无限潜力.陕西省率先在西咸新区沣西新城布局全国首家大数据产业专业园区,从数据采集.存储到管理.分析.挖掘.应

亿美软通与FICO达成技术合作 深挖大数据价值潜能

提要:近日,亿美软通与全球最大的个人消费信用评估公司FICO(NYSE: FICO)达成合作协议,双方将在企业大数据分析,风险控制评估,信用决策评判等方面达成技术合作建模,促进普惠金融蓬勃发展. 近日,亿美软通与全球最大的个人消费信用评估公司FICO(NYSE: FICO)达成合作协议,双方将在企业大数据分析,风险控制评估,信用决策评判等方面达成技术合作建模,促进普惠金融蓬勃发展. FICO是全球领先的预测分析和决策管理公司,自1956年成立以来,先后推出了信用评分等多项分析解决方案,目前FIC

深挖大数据这座“金矿”

沈阳市最近获批为国家大数据综合试验区,打开工业大数据发展突破口,辐射.带动辽宁乃至东北老工业基地振兴,是沈阳试验区建设的重要任务.令人欣喜的是,作为大数据产业布局的重要一环,沈阳(中兴)大数据研究院刚一揭牌,就吸纳了近20名专业人才,其中不乏从"北上广"回流的专家. 数据经济时代,人多.终端多,意味着可以产生的数据多,可供分析挖掘的价值多,这是一笔庞大的财富.一座有待深挖的"金矿".就传统产业而言,在设备上加载数据的采集.传输能力,利用大数据分析把制造变得智能化,在