拥抱新技术的一点思考 & 对大数据处理的一点思考

拥抱新技术的一点思考

末经本人同意,严禁转载,徽沪一郎。

概要

无论是github上还是Apache基金会,每过一段时间都会有一些非常优秀的项目出现。如何在较短的时间内比较好的学习和把握住新项目的精髓及要点呢?

就这个问题,本人做了些微的总结,主要集中于较短时间内会使用该项目,会进行相关的应用编程,能够结合实际情况进行系统调优。

https://yq.aliyun.com/attachment/download

对大数据处理的一点思考

概要

2014大部分的时间都花在了Spark这一大数据领域的热点技术上,并由此离开工作多年的电信领域转入到大数据分析行业,作为一名分析领域的新军有必要对自己一年中接触到的新内容作相应的梳理。

大数据处理

大数据处理的理解可以分成这几个层次:

  1. 数据处理

    1. 处理的种类有哪些
    2. 如何将处理落实到计算上
  2. 大数据的处理
    1. 处理的种类有哪些
    2. 如何将处理落实到计算

上面这样一列,你可能会觉着一样的啊,没区别啊,除了一个字以外,一切似乎都一样的。粗看确实如此,从目前大数据领域的实践来看,分析需求层面几乎和原有的没有太大的区别。

当然目前还有一个很火很牛逼的新兴领域叫机器学习,这玩意究竟能带来什么实际的改变,还有待时间的进一步验证。

如果换个角度来看大数据处理,就需要从需求和实现两个方面来分析,看看需求领域有哪些内容,这些需求又是如何通过哪些技术来实现的。

为此我整理了一份思维导图,也算是个人的一种理解吧。

时间: 2025-01-02 16:47:41

拥抱新技术的一点思考 & 对大数据处理的一点思考的相关文章

对大数据的九点思考,欢迎各路大侠指教

文/云计算与大数据的那些事儿(微信公众账号CCDCnewtrend) 大数据已经成为时尚词汇,本思考,没有逻辑,没有体系性,片段式的,目的是提出问题.思考中.心中无"大师",从现象入手,窃以为"大师"一词仅仅适合于鬼神灵,不适合人.此思考希冀引起思想碰撞,各种观点,无论是鼓励.批评,甚至攻击,只要发至内心,都能够促进思索. 结合大家的批评与建议,对一些集中问题点进行一些思考后的再补充,欢迎各路大侠沟通交流. 大数据思考之一 任何一个网站的数据都是人们互联网行为数据的

【好书试读】大数据处理之道

开始试读:https://yqfile.alicdn.com/e62f864d518c11f5d19f53d0719de69c.pdf 天猫购买链接:大数据处理之道 近年来,"大数据"已然成为IT界如火如荼的词,与"云计算" 并驾齐驱,成为带动IT行业发展的两列高速火车.尤其是在物联网快速发展的时代,数据已经被称为新的资源,是支撑物联网发展的基石. 那么,如何把"死"的数据变成真正有效的"资源",成为近年来IT界人士共同思考的

大数据处理时代我们最需要什么样的人才?

当今世界,正在从数据处理时代走向大数据处理时代.今年两会,"大数据"第一次出现在政府工作报告中,这表明,我们对大数据重要性的认识上升到国家层面. 与互联网的出现一样,大数据带来的不仅是信息技术领域的革命,它正在改变着人们的生活以及我们理解世界的方式,并成为更多新发明.新服务的重要源泉. 大数据处理时代到来,将给中国人才队伍带来哪些机会?提出什么样的挑战?谁将是未来最热门的人才?让我们一起来看看吧-- "人人皆可成才"将成现实 记者:大数据到底有什么用? 吴江:大数据

如何低成本、高效率搭建Hadoop/Spark大数据处理平台

随着人们逐渐认识到 "大数据"的价值,互联网.电商到金融业.政企等各行业开始处理海量数据.如何低成本.敏捷高效地搭建大数据处理平台,成为影响大数据创新效率的关键. 为了让用户以最简便地方式享用阿里云全球资源,在云端构建敏捷弹性.高可靠和高性价比的大数据平台,近日,阿里云在成都云栖大会上发布了一款Hadoop/Spark场景专用的ECS存储优化型实例D1规格族,单实例提供最高56核CPU,224GB内存,168TB本地盘容量,5GB/S总吞吐,PPS达120万+.这对Hadoop/Spa

一个苦逼工程师对大数据的一点浅谈

2012年12月13日中国云计算大会在中关村软件园开始了第二天的日程,由于同事无法参加,于是我便趁此机会感受一下IT领域的前沿科技,做为公司里一名普通工程师的我,也比较喜欢关注IT互联网领域里的最新动向,尤其是近几年涌现出了很多名词,比如云计算.虚拟化.大数据,这些披着华丽外衣的新鲜事物被各个厂家炒的不亦乐乎,有时候和同行们交流的时候,不整点新鲜词汇好像都被时代淘汰了一样. 对于一个每天埋头苦干的我来讲,接触最多的就是系统.数据库.应用等等,我们每天要很努力的保证他们不出意外,否则就要丢掉饭碗,

用Apache Spark进行大数据处理—入门篇

文章讲的是用Apache Spark进行大数据处理-入门篇,Apache Spark 是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一. 与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势. 首先,Spark为我们提供了一个全面.统一的框架用于管理各种有着不同性质(文本数据.图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求. Sp

大数据应用方向思考

一. 警惕大数据过热 1.1 过热产生盲目性 国内大数据的宣传早已过热,很多区县级政府也在考虑成立大数据局,政府对大数据热几乎没有抵抗力,企业没有紧跟就对了,在大数据高潮中反省政府的大数据行为.冷静一下头脑是有益的,毕竟大数据应用是一个经济问题,一窝蜂地大数据会使人犯"大炼钢铁"一类的错误. 1.2 大数据应用效益存在问题 大数据最积极的推动者是政府,但是政府工作如何从大数据应用中获益一直没有清晰的答案,有效的大数据应用集中于互联网企业和金融领域并非政府工作,迄今一本像样的政府大数据应

大数据处理系统关键层次架构

在数据存储层,还有很多类似的系统和某些系统的变种,这里,我仅仅列出较为出名的几个.如漏掉某些重要系统,还请谅解. 以下是对上图中各层次架构的说明 一.数据存储层 宽泛地讲,据对一致性(consistency)要求的强弱不同,分布式数据存储策略,可分为ACID和BASE两大阵营. ACID是指数据库事务具有的四个特性:原子性(Atomicity).一致性(Consistency).隔离性(Isolation).持久性(Durability).ACID中的一致性要求比较强,事务执行的结果必须是使数据

大数据处理:百分点实时计算架构和算法

当今时代,数据不再昂贵,但从海量数据中获取价值变得昂贵,而要及时获取价值则更加昂贵,这正是大数据实时计算越来越流行的原因.以百分点公司为例,在高峰期每秒钟会有近万HTTP请求发送到百分点服务器上,这些请求包含了用户行为和个性化推荐请求.如何从这些数据中快速挖掘用户兴趣偏好并作出效果不错的推荐呢?这是百分点推荐引擎面临的首要问题.本文将从系统架构和算法两方面全介绍百分点公司在实时计算方面的经验和心得体会,供读者参考. a) 实时计算架构 图 1百分点大数据平台原理示意图 工欲善其事,必先利其器.一