玩转大数据,你需要了解这8种项目类型!

在过去的 12 个月里,笔者一直在大数据的战壕里挖掘。好吧,其实大部分时间我只是坐在比我更聪明的人旁边,看他们怎么在战壕里挖掘数据,再把所做的事情进行简化以上报给管理层。

很少有真正独具一格的 IT 项目,那些听起来比较特别的项目最终也只是大同小异。不过你们今天有眼福了,因为我决定出来冒个泡儿,跟大家分享一下过去 12 个月里接触到的8大项目类型。

1、探索交易周期

那些做电子商务的公司想当然地认为,装几个工具就能掌握网页访客从销售到付款的成交情况。但是很多公司处理的数据集远远不止网页成交率,而且这些数据集主要来自经销商。

每个经销商提供格式各异的不同数据集。当然,从根本上说,这是一个带有BI/可视化前端的核心ETL/数据整合项目。但是,对许多公司而言,要真正了解交易的生命周期(从开始、进展到结束)比想象中要困难。你需要整合大量的 CRM 数据、网站分析数据和财务数据,最后才能肯定地说:“是的,PPC(点击付费广告)带来了交易,但是40%的客户连第一笔交易都未能成功走到付款,那么……”

2、挖掘潜在客户

很多公司都想知道你在做什么,然后再根据你的活动情况向你推销产品。例如,你手机上可能装了一个提供遥测数据的 app,这样公司就会知道你在商场的哪个位置。凭借这些大数据,他们就能预测你在任意时刻的购买需求。

3、衡量营销效果

营销人员做事讲求效益,他们想知道具体要做哪些事情,以及这些事情对KPI有何影响。从本质上说,这又是一个 BI 项目,而且往往涉及到大量的变更数据捕获(CDC)和 ETL 数据整合工作。他们测量的实际KPI变化很大,有时还涉及到 Kylin 或 Greenplum 等工具中的数据库。至于其他情况,可能属于下一个类别——社交媒体。

4、测量社交媒体热度

通常,公众会在公开或半公开的社交网络上谈论你(或你的公司)。在这些地方你可以获取很多有用的信息,比如大家怎么看待你的品牌,你的营销活动是否有成效。既然美国地震勘探局可以通过 Twitter 探测到地震和震级,那么你也可以通过这样的平台了解刚推出的广告活动效果如何。随着越来越多的专业社交平台出现,对于某些垂直行业而言,其数据采集范围远远不止 Twitter 和 Facebook。

5、专攻日志文件

无论是为了入侵检测还是应对安全审计,你都需要捕获并收集日志文件并使其可检索。在这一领域,Splunk 无疑大赚了一笔。当然,在大数据中还有其他更灵活的选择。

6、因为不想买Teradata!

现在已经不是 Teradata 独统天下的时代了,大数据正在从边缘向核心发展,而且 Apache Kylin 的数据库已对所有人开放。得益于 Impala、HAWQ 和 Greenplum,MPP 分布式系统的地位也更加重要。那些价格昂贵、功能单一而且还不能兼容其他数据分析的工具,其发展空间越来越小——更别说是那些只能依靠某单一供应商的私有云。

7、经久不衰的ETL

ETL (Extract-Transform-Load)可能依旧是如今最常见的Hadoop工作负载——而且我敢说,ETL 是适用于 Spark 的最常见的非流式工作负载。顺便提一下,现在已经有上百个创业公司冒出来说自己能够处理这种任务了。

8、先捕获传感器数据再想办法处理

不管是电网、制造业、水泵,还是老司机开的车,都在向我们传递信息。这些信息都需要捕获。甚至有些人已经弄清了该如何处理这些数据。但是,及时捕获数据才是最重要的一步,因为很多人都觉得从技术上来说捕获数据并不那么容易。

此外,笔者还经常督促大家在大数据项目初期就要考虑数据分析问题。为什么呢?因为预先设计并确定好数据流的大小,远比数据已经准备好时再重新考虑整体布局要容易得多。但是有时候还是得细细咀嚼,做最好的打算。

近一年来,笔者见过不少其他项目类型,但是大多数用例都属于以上八种之一。不知各位老司机是否还有补充?

OneAPM 能为您提供端到端的Java 应用性能解决方案,我们支持所有常见的Java 框架及应用服务器,助您快速发现系统瓶颈,定位异常根本原因。分钟级部署,即刻体验,Java 监控从来没有如此简单。想阅读更多技术文章,请访问OneAPM 官方技术博客。
本文转自d1net(转载)

时间: 2024-09-17 23:13:59

玩转大数据,你需要了解这8种项目类型!的相关文章

玩转大数据:需要知晓的12种工具

本文讲的是玩转大数据:需要知晓的12种工具,无论是在构建大数据的应用程序,还是仅仅只想从开发的移动应用中得到一点点启发,程序员现在比以往任何时候都需要数据分析工具.这绝对是一个好东西,所以很多公司从程序员的需求和技能出发,构建了一些数据分析工具. 在过去的几年里,Derrick看到了很多初创公司,各类项目以及开发工具等等,它们都旨在为程序员带来先进的数据分析能力.有时候,程序员们会使用简单的脚本开发出强大的显示效果,或者在开发过程中使用一种更简易的方式来实现数据的交付功能,Derrick相信这是

程序员想玩转大数据:需要知晓的12种工具

无论是在构建大数据的应用程序,还是仅仅只想从开发的移动应用中得到一点点启发,程序员现在比以往任何时候都需要数据分析工具.这绝对是一个好东西,所以很多公司从程序员的需求和技能出发,构建了一些数据分析工具.GigaOm的记者Derrick Harris列举了十二个工具: 在过去的几年里,Derrick看到了很多初创公司,各类项目以及开发工具等等,它们都旨在为程序员带来先进的数据分析能力.有时候,程序员们会使用简单的脚本开发出强大的显示效果,或者在http://www.aliyun.com/zixun

【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据

免费开通大数据服务:https://www.aliyun.com/product/odps 老板每天都要出这些业务数据(销售总额.总交易量.总点击次数.总加入购物车次数.总加入收藏夹次数...),我得想个一劳永逸的方法了- 幸好,我有数加神器大数据开发套件Data IDE,搞定业务工作流调度,每日定时自动执行任务,分分钟输出计算结果. 妈妈再也不用担心我焦头奋战了-- 本教程是一个大数据开发套件Data IDE零基础教程,通过Data IDE将多源异构的数据集导入云端MaxCompute,进行计

Facebook教你如何玩转大数据

不论"大数据"概念是不是个陷阱,我们的时代,互联网巨头坐拥海量信息是无人可以否认的事实,社区产品和社交产品赖以生存的基础就是从用户那儿来的数据. 他们都是怎样八仙过海.各显神通让你感受到大数据的?比如,去年年终的时候,你肯定看到众多好友在微信朋友圈儿分享了一张"订制"的图片,在微信产品成长历程的时间轴中标注你加入的时点:你可能在登录豆瓣电台后,才发现通过一个特别的回忆通道,豆瓣已经帮你记录了一年来的音乐足迹,从哪天注册哪天听第一首歌哪天听的很悲伤--无一遗漏:如果你

规划为道 同方数据资源体系玩转大数据

文章讲的是规划为道 同方数据资源体系玩转大数据,大数据的应用前景之大已经毋庸置疑.据Gartner发布的<大数据驱动基础架构>报告显示,2013年大数据带动的IT支出有望达到340亿美元;到2016年,全球在大数据方面的总支出将达到2320亿美元.Gartner还强调,大数据工具在2014年将被视为一种必要投资. 当前,越来越多企业将大数据的分析结果作为其判断未来发展的依据.同时,传统的商业预测逻辑正日益被新的大数据预测所取代.不过,海量数据只有在得到有效治理的前提下才能进一步发展其业务价值.

SQL Server:大企业如何玩转大数据?

文章讲的是SQL Server:大企业如何玩转大数据,"得大数据者得天下." 推崇大数据时代的变革者们对此坚信不疑. 在大数据时代,谁能有效地管理和控制数据,谁就有可能成为世界霸主.中国石油化工集团公司信息系统管理部副主任齐学忠也认同这个观点.不过,有效的管理和控制数据并非一件容易的事情,齐学忠就经常为中石化的合同管理而头疼. 营业收入超4000亿美元,全球排名领先的巨型企业--中国石化,其合同管理就是不折不扣的"大数据".中国石化集团拥有众多分子公司,总部和所有下

正确的理解,是玩转大数据的前提

眼下,无论是高校还是科研机构,以"大数据"为关键词的研讨会一拨接着一拨,云计算.物联网.智能终端--这些新概念串烧着出现,仿佛"大数据"正撬动着一个非"技术宅"免进的新世界. 到底什么是大数据的真面目?英国帝国理工学院终身教授.帝国理工数据科学研究所所长郭毅可给出的却是一个举重若轻的解释."大数据首先不是概念,而是一种现象.一种新发现的资源.就如同人类发现了新的石油一样--对大数据的发掘意味着可以创造财富,也正因此,大数据会引发一系列的

抗衡互联网冲击,购物中心要玩转大数据

大数据.云计算.互联网--这些虚拟空间的名词正在跟实体产业融合,互联网与传统行业之间的界限越来越模糊,飞凡.喵街.大众点评加上不计其数的O2O产品让实体商业变得越来越好玩,人们在虚虚实实之间享受着"互联网+"带来的方便.经济和愉悦感. 与此同时,还有一大批实体商业正在忙碌地编织着适合自己的互联网.大型的购物中心开始铺设免费Wi-Fi.导入Beacon微定位技术.建设在线商城.开展朋友圈营销--不亦乐乎地为迈进"互联网+"新时代准备着. 智慧商业,过去只存在于人们唠嗑

经验之谈:如何像Google一样玩转大数据

文章讲的是经验之谈:如何像Google一样玩转大数据,像Google一样玩转大数据到底难不难?企业能从Google身上借鉴哪些经验?本文就将进行深入的讨论. 简单来说,Google处理大数据的方式可以总结为以下几点: 1.收集原始数据,捕捉每一个网站的内容,电子邮件或者Cookie,然后抽取出关键的信息 2.为这些信息创建复杂的关联索引以及与广告相关的索引 3.将索引和相应的内容存储在分布式的服务器上 4.当用户浏览网页进行搜索,或者查看电子邮件时,Google就会将用户的请求放到一个复杂的"翻

风险管理更精准 银行也要玩转大数据

全球知名咨询公司麦肯锡在其发布的大数据报告中称:"数据,已经渗透到当今每一个行业和业务智能领域,成为重要的生产因素.人们对于海量数据的挖掘和运用,预示着新一波生产增长率和消费者盈余浪潮的到来." 大数据与各行各业的结合已经越来越紧密,拥有得天独厚大数据优势的银行也不例外.网上银行.手机银行.财富管理.信用卡平台等系统内的客户交易数据,核心系统.信贷系统.客户关系维护系统.计价系统等客户的基础信息,产生了大量的数据.这些数据可以帮助银行进行业务总结和洞察.细分客户.预见客户流失.提出增值