愿你的大数据能有点柴米油盐的味道.........

一直以来都有两个观点:1,当你不能够用生活中的例子来讲明白你所懂技术的时候,也许就是你自身对该技术理解深度不到位。2,牛人分两种,一种是把自己所会的技术讲的所有人都能听明白,而另一种就是讲的只有一小部分高手能听懂........

  最近开始泡知乎论坛,买了一些Live开始学习。才发现自己对数据挖掘行业的认知浅薄,才知道自己该努力的方向。于是就有了今天的这篇文章:
  大数据是什么?它跟柴米油盐有什么样的关系?大数据跟数据科学家,数据挖掘,算法工程师又有什么关系?

1,大数据是什么?

   实际上,最近一年。嚷嚷大数据的人很多,而这个词的热度也丝毫不减。而个人认为,大数据重要的是思维,是商业模式,而不是技术!大数据的这一思维能带给我们什么?不再是传统的拍脑袋做决定,而是依靠我们所拥有的数据跟行业经验,在这方面,行业经验非常重要。这也就是为什么互联网公司要想在传统行业做大数据分析必须要找到一个在这个行业经验很多的人的原因。
    记得一次中午吃饭,跟同事们就聊起了什么是大数据,什么是云计算的话题。实际很简单,我们吃饭的餐盘就是云,而我们食物就是大数据。而同事不是不知道云,他是不智道云跟我们有什么关系?它能带给我们什么?能给现在的工作提供哪些便利?
  云只是一个平台,重要的还是它的内容。我们用完餐,就会把餐盘放到收餐台上。而食物是我们所要吸收的,餐盘里不同的小格子可以放不同的食物,这些食物有些是大块,有些是小块,这些就相当于数据前期 的整理。专业点的说法就是数据清理,或者叫ETL。

2,它跟柴米油盐有什么样的关系呢?

  要做好一道菜,或是做出一顿美食。缺少不了柴米油盐,就相当于有了数据,我们不仅要有烹饪的工具,而且还要有烹饪的技术。最近在看舌尖系列,就觉得中国人烹饪美食的技术不亚于现在IT的相关技术。只不过是我们都忽略了老祖宗的一些东西罢了........
  当我们把食材准备好的时候,我们就需要开始烹饪了。这里就拿我的拿手菜(茄子烧肉)来举例子吧:茄子有很多的切法,可以切条,也可以切丁(就是那种小块)。而肉也是可以切成丝,也可以切成丁,同时也可以切成肉沫(这就是借助搅拌机了)。这些数据原始加工的过程,很大程度上决定了你最终分析出来的结果。有人的喜欢吃茄丁,有的人喜欢吃肉沫,有的人喜欢大块的肉............而不同人的喜好决定了你的分析目标是什么?这也就是为什么数据挖掘里分析目标的关键性。
  当你有了分析目标之后,后边的油,盐,调料的多少就有了判断。而油是所有抄菜基上必须的一道步骤,这一步就相当于数据分析里的去缺失值,数据统计这一步。大体统计出数据的一个整体质量,有多少缺失值?中位数与平均数是否相等?是否符合正态分析?数据是呈现离散的,还是连续的?基本上都是在热锅的这一部分所要思考的。油热的好,葱姜蒜的香味就能出来,热不好,葱姜蒜有可能就糊锅了。后边抄菜的香味就出不来了。

3,大数据跟数据科学家,数据挖掘,算法工程师又有什么关系?

数据科学家:厨师长

    数据科学家这个概念,最早听到是在IBM的一次沙龙活动中听到的。当时我们小团队也稀里糊涂拿到了优胜奖,以为我们就可以是数据科学家了。现在想想,真的是too young,too native。科学家那有那么简单的事。而大数据就是一个跟柴米油盐的工种,离科学家还有很远的距离!
  当掌握了大数据思维之后,你也要跟实际的业务相关连。相当于你知道如何抄这个菜之后,食材的选择,新鲜程度如何这一方面你也需要掌握。同时你也要了解到当下这个菜的大体定价...........等等一系列的东西,有数据有关的,与数据无关的。你都要掌握你可以成为一个合格的数据科学家。否则,还是不要拿这个title出去忽悠人。

数据挖掘:创作厨师

   至于数据挖掘,就你要你自创一个菜。刚开始学抄菜的时候,我们都是按照食谱一个一个的学着抄的。而到后期,当家人特别爱吃某两个菜的时候,你就要学会来调和这种菜的做法。比如,在做好鲫鱼豆腐汤的时候,是否要把冬瓜跟粉丝也放在一起。而当这样尝试之后,有的会成为一道更加美味的菜肴。而有的就不那以好吃了。
  从以上的角度来看,数据挖掘==自创菜,而数据分析==照菜谱抄菜。这样我们就能看出这两者的差别了。一个是有分析目标,一个是没有分析目标。数据挖掘有可能会为公司创造更大业绩,也有可能失败。就是因为你不知道你挖掘出来的目标是否符合公司的业务要求,或者说你挖掘出来的客户都很好,但在业务执行的时候就是会出很多问题。

算法工程师:火候厨师

  实际上,算法工程师在大数据行业里是很重要的。经常见到的说法就是:代码工程师好招。而是一个好的算法工程师难遇。换在古代的说法就是:千军易得,名将难求!
  在大一点的饭店,你都会发现,客人在等餐的时间都会很长。而如何加快上餐速度。如何最快的烹饪好食物,并摆盘上菜。这一块是很有讲究的。而算法工程师,他们需要了解客户的业务,同时也要了解自己数据系统的性能。只有这两者相结合,才能更好的从业务角度来优化自己的数据架构。在这里,想起当时导师跟我讲的一个例子,中国人在写C的时候,爱用指针去调用内存,而在国外有些成熟的公司里都是用数组堆栈来直接调用。因为系统的延迟效应也是决定着你的最终成败。
  在IT行业分工越来越细的今天,算法工程师的价值越来越大,有可能一个公司。一个算法工程师就相当于10个代码人员的工作效果。这里提到的不是效率,而是效果。因为最终的业务落地需要有内在的算法支持,但更重要的是你的代码逻辑表达。

  好了,这次就先写到这吧!以后会坚持写的,希望能把抄菜大数据系列写完。最后,还是要感谢下公司,不定期的发菜(按照惯例,最后还是放上一道学会抄的菜),让我对各种菜谱开始了学习,在不能学习技术的同时,抄菜过程中也是对所学的知识进行深入思考。希望自己未来能抄得一手好菜,也能在大数据上精进一些,加油!

时间: 2024-07-31 08:03:40

愿你的大数据能有点柴米油盐的味道.........的相关文章

南海布局大数据!2020年将大数据产业培育成南海支柱产业

最近一段时间,大数据成为南海区社会各界关注的焦点.9月4日,南海发布<佛山市南海区新型智慧城市建设三年行动计划(2017-2020)>(下称<行动计划>),提出到2020年,要将大数据产业培育成当地的支柱产业,大数据相关产业产值占GDP的5%以上. 相隔不足24小时,南海就召开大数据及工业互联网创新应用工作推进会,与中国信息通信研究院.中国标准化研究院.阿里巴巴.腾讯.中国移动等合作伙伴签订21个大数据产业和新型智慧城市项目,将关于大数据产业的构想落地为现实. 市委常委.南海区委书

大数据在医疗保健中的真正愿景

从可穿戴技术的影响到促进癌症研究的潜力,医疗保健领域的大数据技术引起了很多热议.然而,大数据在医疗保健中的真正愿景不在于个人数据收集或使用不同的应用程序,而在于结合医疗保健数据为医生创造新资源的潜力. 新的数据源 为了进行最近的研究,研究人员转向社交媒体上的数据,通过识别敌意或消极语言来识别压力的措施.然后他们将数据转换为颜色编码的地图,以预测任何给定位置的心脏病的可能性.当研究人员用传统研究创建的地图交叉检查他们的发现时,发现这些地图几乎相同.基于这些结果,研究人员认为使用外部数据源进行大数据

微软发布大数据愿景 推动数据分析平民化

当其他厂商还更多地将注意力放在"如何利用大数据进行产业转型和企业创新"时,微软已经开始展示如何利用正确的技术和工具,让每位普通大众都能从大数据中直观获取洞察. 10月18日,微软全球高级副总裁.大中华区董事长兼首席执行官贺乐斌在"大数据媒体日"上对记者表示,"与其他公司处理大数据的方式不同,微软主张从发现数据.分析数据和对数据进行可视化的处理这三种方式来思考大数据的使用.微软大数据愿景是,希望基于标准化的产品,使所有人都能够在任何时间任何地点利用数据,并更

合理利用大数据 助力中国各产业加速发展

随着物联网的应用及智慧产业的爆发,"大数据"这个词汇再次高频度地出现在人们的视线中,围绕大数据做文章也相应催生出了农业大数据.工业大数据.健康大数据.旅游大数据等一批行业领域的大数据概念.作为各行各业智能化变革的重要组成部分,"如何利用大数据"成为传统企业和新兴互联网厂商争相涌入的新一片蓝海. 合理利用大数据助力中国各产业加速发展 智慧产业的应用简单来说,需要依托传感前端的智能感知或者数据采集,经过数据筛选.分析等处理,最终根据业务需求提供服务应用的一个过程.其中,

想挖大数据价值,你得先“挖人”!

这几天大数据圈的大事件绝对当属第一届中国社群领袖峰会,12月1号在北京的这场峰会吸引了无数知名企业和科技领军人物参与,说星光熠熠也不夸张.围绕大数据和移动互联网有不少会议,但中国社群领袖峰会算是高大上级别的了.大数据正在以超乎想象的速度和力度往各行各业渗透,甚至不少传统行业已经被其颠覆.主动拥抱的就会越发强大,拒绝排斥的可能就要遭到淘汰.有不少行业已经率先尝到了大数据价值的甜头,比如电商行业.互联网金融行业等,美味的东西人人爱吃,前面的人吃的大快朵颐让后来者情何以堪?别忘了还有不少传统行业嗷嗷待

怎么利用大数据产生价值、驱动变革?瞧,这有答案

大数据怎么在业务里面产生价值,又是如何驱动业务变革的? 首先分享一个观点,大数据本身是一个业务问题,绝对不是一个简单的技术问题.今天讲大数据的技术也是从业务里面孵化出来的,最早大数据的起源来自谷歌,谷歌需要去检索整个互联网上的海量信息,这背后要有足够的计算能力和技术来支撑它做这个事情,后面才有大数据的概念出来. 业务需求倒逼技术发展 对于阿里巴巴而言也是一样的,今天阿里最典型的业务就是金融业务,数据显示阿里从最开始做小贷的业务,到2014年的时候计算量就翻了数十万倍.随着业务的指数级增长,客户越

阿里CEO张勇首谈商业未来:大数据将成新能源

5月13日晚间消息,在2015年阿里集团内部会上,阿里巴巴新任CEO张勇首次亮相,并分享对未来商业的判断和思考.张勇表示,未来是传统经济和数字经济结合的时代,大数据.云计算将成未来时代的新能源.他同时表示,未来经济是现实经济和数字经济大融合的时代,新时代下,阿里也必须给"让天下没有难做的生意"赋予更多的内涵. "今天的电商环境.客户需求已经发生巨大变化.阿里巴巴需要更多新鲜的脑力.活力去创造更多的惊喜.我们旗帜鲜明地鼓励创新,为创新提供更好的阳光和空气."张勇在会上

“云”让数据更安全 大数据本科生明年招生

2016年云栖指数显示,成都在全国云计算活跃度上仅次于北上广深杭,位列全国第六,也是西南地区排名最高的"双创城市". 数据显示,成都20-35岁的创客占76%,因此成都整体的行业分布排名与年龄层次关联较深,分别是游戏.网站.it与软件开发.电子商务.通讯社交.物联网.移动app.教育.O2O. 通过云栖指数不难看出,当云计算.大数据生态开始越来越介入我们的生活,成都将引来一波浪潮.2017云栖大会·成都峰会用数据和个例告诉了我们,阿里云和我们已经息息相关. 智能防御更安全 3天,150

数加平台——阿里大数据OS实践

在云栖计算之旅第5期--大数据与人工智能大会上,阿里云大数据事业部数加平台技术负责人陈廷梁从数加定义.起源.愿景.价值.架构.规划六个方面分享了<数加平台--阿里大数据OS实践>.其中,他主要介绍了数加平台的演进过程和阿里大数据OS的架构.   以下内容根据视频整理而成.   视频回顾:点此进入 pdf下载:点此进入   数加是什么 在阿里云的官网打开大数据部分(整个大数据部分统称为数加),其中包括:大数据基础服务部分,MaxCompute.ADS.流计算.大数据开发套件:人工智能部分,机器学