天天在做大数据,你的时间都花在哪了

前言

我每天都在思考,思考很重要,是一个消化和不断深入的过程。

正如下面的一句话:

我们从出生开始如果没思考过人生本身这件事情,一切按照社会的习惯前行,那人生是没有意义的。因为你连人生都没有想过。

那么延生出来,我们有没有想过大数据本身?大数据到底是在做什么,为什么我做了这么多年的大数据,总是做不完呢?

大数据本质是:

随着科学技术发展,更多的数据能够被存储了,能被分析了。所以有了大数据的概念。

机器学习的本质是:

随着数据变多了,量变导致质变,数据足够大后其内部的隐含的规律会越来越精确和完整。机器学习则是将数据内存存在的这种隐含关联给挖掘出来的一项技术。

大数据最消耗工作量的地方是哪里呢?

目前百分之八十的工作量都在于数据收集 清理和校验。 这个工作本身并不难,但是真的很繁琐,很费力。

我们天天感叹:

  1. 数据在哪里?如何收集
  2. 数据要怎么进行清洗
  3. 无效数据太多,如何去除

而让我们心灰意冷的是

当一个新的需求来临时,现有的数据形态似乎不能满足需求,我们又要在现有的数据堆里,重新走数据收集,清理,校验的流程。

这似乎是一种诅咒,如同可怜的西西弗斯,被判要将大石推上陡峭的高山,每次用尽全力, 大石快要到顶时,石头就会从其手中滑脱,又得重新推回去,幹著无止境的劳动。

大数据目前遇到的最大技术难点是什么

是海量数据的ad-hoc查询

当Hadoop刚刚兴起,我们可以通过它来操控越来越廉价的PC服务器价格,于是一种暴力弥漫了整个生态:

我们因为突然有了强大的算力,这就好比一个穷人突然有了一笔很大的钱。我们开始让强大的算力驾着最低效的程序去跑数据,这是批处理时代的悲哀

但是随着查询效率要求越来越高,我们不得不被迫做出改变。还记得我们以前的日志都是简单的Raw文本吗? 现在各种存储的格式慢慢开花结果:

  1. Parquet, 数砖公司大力发展的一个存储技术
  2. ORC,  Hive 常见的一种存储格式
  3. CarbonData, 华为推出的一套可支持PB级别的数据格式

总之,我们似乎没有找到一个奇妙的技术解决查询的问题,只能做某种折中:

为了加快查询速度,数据存储慢慢从早期的raw文本转为具备向量化,带索引,支持特定编码和压缩的列式存储结构,当然这种通过调整存储结构的方式必然以消耗数据进入时的时间和资源为代价。

也就是我们在存储和查询之间做了妥协。

如何让苦力干的更少

前面我们提及了,我们可能80%的工作都花在了数据的采集,清洗和校验上了。但是我们该如何压缩这部分的工作呢?

答案是:

  • 流式计算 
  • 流式计算上层建筑

让所有的计算流动起来,就会让下面的事情变得简单:

我们可以在已经流动的数据中的任何一个环节引入一个新的支流。当我要获取数据时,我做的本质其实就是 连接两个或者多个节点,并且在其中对数据进行转换。就如同河水,我们可以很方便的开一个支流,将水引入灌溉新的额农田。

而且我们希望流式计算的实现是结合了流式和批量语义的。为什么呢?看看华为在Storm上做的StreamCQL,就知道,很多情况实时流式是很有局限的,因为未来我们在流式上能做的事情会非常多:

  1. 数据处理
  2. Ad-Hoc查询
  3. 机器学习
  4. 报表
  5. 存储输出

这就需要一定的灵活性,因为只有在数据集上,才会有譬如Ad-Hoc查询,才能高效的进行存储,才能适应一些机器学习算法。单条数据很多情况下,是没有太大意义的。

这块我一直是Spark Streaming的支持者。数据天生就是流式的

那为啥我们需要一个流式计算上层建筑? 我们回顾下问题,数据的ETL过程是个苦力活,消耗掉大量程序员的工作时间,那么为了减少这种时间,我们有两个办法:

  1. 将做些任务分散出去,使得每个人都可做,那么在总量不变的情况下,单个人就会变少了
  2. 提高每个人的工作效率

流式计算构建了整个基础,而其上的框架则使得上面两点成为可能。这里我依然推荐我现在正在做的一个开源项目:StreamingPro。未来我们还会有一个更通用的基于流式计算的采集程序,敬请期待。

时间: 2024-09-16 07:06:43

天天在做大数据,你的时间都花在哪了的相关文章

谁能做大数据工程师?

大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策.这群人在国外被叫做数据科学家(Data Scientist),这个头衔最早由D.J.Pati和Jeff Hammerbacher于2008年提出,他们后来分别成为了领英(LinkedIn)和Facebook数据科学团队的负责人.而数据科学家这个职位目前也已经在美国传统的电信.零售.金融.制造.物流.医疗.教育等行业里开始创造价值. 不过在国内,大数据的应用才刚刚萌芽,人才市

做Data Mining,其实大部分时间都花在清洗数据

前言:很多初学的朋友对大数据挖掘第一直观的印象,都只是业务模型,以及组成模型背后的各种算法原理.往往忽视了整个业务场景建模过程中,看似最普通,却又最精髓的特征数据清洗.可谓是平平无奇,却又一掌定乾坤,稍有闪失,足以功亏一篑.  大数据圈里的一位扫地僧 说明:这篇文章很早就想写了,但是切入点一直拿捏不准,要讲的内容比较大众化,却又是重中之重. 一.数据清洗的那些事 构建业务模型,在确定特征向量以后,都需要准备特征数据在线下进行训练.验证和测试.同样,部署发布离线场景模型,也需要每天定时跑P加工模型

做大数据不能蜻蜓点水

摘要:从大数据兴起后,我们听到了很多关于大数据的故事,但是好像永远也就那几个.电子商务领域的成功案例,都是与搜索.推荐和精准营销相关,我们希望听到的更多. "我现在脑海里大概有20多个idea,就是利用大数据分析去解决各种各样的业务问题."在回答ZDNet记者关于数据分析如何支撑业务的问题时,去哪儿网机票事业部数据营销高级经理吴君如此回答到. 关于大数据在电子商务领域的应用场景,我们听到最多的就是那个少女怀孕的故事.这些案例更多地是围绕电子商务企业如何利用大数据分析做好推荐.搜索,做精

《大数据》作者:做大数据要从小数据做起

数据浪潮汹涌而至,摩尔定律.普适计算.数据挖掘.社交媒体正强烈影响着我们的生活,在"大数据"的现实情景中,个人行为选择的参照系如何?"大数据"又为公共管理和商业创新带来何种机遇和挑战?"大数据"如何在中国落地?针对上述命题,上周日,第一财经·悦读会携手广西师范大学出版社·理想国,与嘉宾<大数据>作者涂子沛.贝格数据总裁李常青在复旦大学围绕"看得见的未来"这一命题进行讨论. <大数据>讲述了美国半个多世纪

想做大数据风控,先问问自己这几个问题!

大数据运用于互联网金融是近期一个异常火热的话题.不过细究起来,或许仍然概念性较强,不排除一些发展较好的平台,但从整体情况来看,大数据发展尚不成熟,还处于早期阶段. 想做大数据风控,先问问自己这几个问题! 大数据变现最好的状态是有数据源.能够进行数据挖掘.同时有用户的相关需求. 明略数据金融事业部解决方案专家杨昀举例表示,就像开采油田,基础是具有油田资源,核心是勘测开采需要的设备,加之用户资源需求,这才是一个行业应有的发展状态. 大数据运用于互联网金融是近期一个异常火热的话题.众多互联网金融平台动

湘鄂情做大数据遭质疑

央广网科技7月7日消息 餐饮企业湘鄂情7月1日晚间将公司名称由湘鄂情变更为"中科云网科技集团股份有限公司"(简称"中科云网"),并将与中科院计算技术研究所开展合作.改名意味着业务主体发生了变化,公告称公司将立足大数据,提供云服务平台:同时将围绕移动互联网,家庭智慧云终端等产品模式进行应用推广.公告称,更名已经获得公司董事会批准,但尚需股东大会通过. 据易名中国whois系统查询,"中科云网"域名zhongkeyunwang.com于今年6月25日

大数据时代 每家公司都要有大数据部门吗?

在大数据时代 每家公司都要有大数据部门吗?如果这个问题换做是:在电气时代,每家公司都要有个发电厂吗?是不是会更好回答一些? 事实上每一种重大技术的出现,都会对产业产生大的变化.在蒸汽时代,采矿机采用蒸汽机后,会带来生产效率的极大提升,而轮船加上蒸汽机,再也不需要靠风才能航海了.在电气时代,电灯代替了蜡烛,电报代替了快马送信,而报纸也被广播和电视所侵蚀. 可以说是现有产业加上新技术,形成了新产业. 我们回过头来看这两次工业革命,生产蒸汽机的企业只有少量几家,而发电的企业在美国也只有通用电气和西屋电

在大数据时代 每家公司都要组建大数据部门吗?

在大数据时代 每家公司都要有大数据部门吗?如果这个问题换做是:在电气时代,每家公司都要有个发电厂吗?是不是会更好回答一些? 事实上每一种重大技术的出现,都会对产业产生大的变化.在蒸汽时代,采矿机采用蒸汽机后,会带来生产效率的极大提升,而轮船加上蒸汽机,再也不需要靠风才能航海了.在电气时代,电灯代替了蜡烛,电报代替了快马送信,而报纸也被广播和电视所侵蚀. 可以说是现有产业加上新技术,形成了新产业. 我们回过头来看这两次工业革命,生产蒸汽机的企业只有少量几家,而发电的企业在美国也只有通用电气和西屋电

对话知乎王雨舟:大数据时代,人都在“裸奔”吗?

文章讲的是对话知乎王雨舟:大数据时代,人都在"裸奔"吗,从大数据时代开启的第一天起,我们的生活注定被数据灌满了.这是一个人人都需要隐私但又不懂得在乎和保护隐私的时代,几乎所有人都在发布数据,把它们挂在网上或传播到公共平台.人们既向外发散,又向内吸收,自觉或不自觉地收集各种各样的数据信息.--<大数据在中国> 人们不禁发问:大数据时代,人都是在"裸奔"吗? 知乎,作为一个知识社交平台,目前拥有8400万注册用户,每天产生的数据量多得惊人.这些传来传去的信息