大数据应用?你先搞定数据获取再说

虽然大数据已经变得更像一句营销术语,但是它仍有巨大的潜力没有被挖掘出来。不过,得先把数据获取这个大麻烦解决了。

企业在面对数据的时候,比知道怎么处理更多的情况,是在这些数据里漫无目的的游泳。遗憾的是,太多的公司将这种现象与大数据本身关联起来。从技术角度来说,大数据是非常具体的一件事――结构化数据(企业的专有信息)与非结构化数据(社交媒体数据流和政府新闻源之类的公共数据源)的结合体。

如果你将非结构化数据覆盖在结构化数据之上,通过分析软件将其可视化,你就会得到过去从未有过的洞察力――预测产品销售、更精准地目标用户、新的市场机遇,等等。

大数据不再像过去几年一样,受限于工具缺乏的问题。那时候搞大数据意味着团队里必须有数据科学家,还会被R和Hadoop之类的开源工具搞得心烦意乱。

如今,多少公司都争着帮你可视化大数据:从Tableau、Qlik、TIBCO和MicroStrategy之类的专业公司,到微软、IBM、SAP和甲骨文之类提供端到端服务的厂商,不一而足。

不过,据上周出席奥兰多中级市场CIO论坛/中级市场首席营销官(CMO)论坛的IT主管们声称,许多公司在大数据分析中最头疼的问题,其实是如何获取数据。

一位CIO说:“我们IT部门的最大问题,是我们如何才能将数据获取进来,这件事非常麻烦。”

这种说法也得到了相关数据的证实。

数据集成公司Xplenty开展的一项调查声称,三分之一的商业智能专业人员把50%至90%的时间,花在了清理原始数据和将数据录入到公司的数据平台的准备工作上。这种现象的原因,可能与只有28%的公司认为自己能从数据中获得战略性价值有很大关系。

数据清理的问题还包括,眼下IT行业许多最抢手的专业人员,正在花大量时间处理这项让人晕头转向的工作:在分析数据之前先筛选并组织整理数据集。

这显然对于数据的可扩展性非常不利,也严重限制了大数据的潜力。随着物联网不断发展,收集更多的数据对我们来说将越来越容易,这个问题只会变得更严峻。

有三种可能的方法有望解决这个问题:

1. 大数据分析软件不断完善――许多这些公司在过去五年时一直投入大量精力在大数据领域,减轻数据清理环节压力的工具不太可能在短期内出现重大突破,但有望实现逐步改进。

2. 数据准备人员成为数据科学家的助手――正如律师助理帮助律师处理重要的基础工作,数据准备人员也会帮助数据科学家处理基本上同样的底层任务。我们已经在某种程度上看到了这一幕。不妨阅读TechRepublic的这篇文章:《“数据标记”是人工智能时代的新新蓝领工作吗?》(http://www.techrepublic.com/article/is-data-labeling-the-new-blue-collar-job-of-the-ai-era/)

3. 利用人工智能清理数据――另一种可能性是,用来清理、筛选和分类数据的软件和算法将被编写出来。这一幕极有可能出现,但是我们还应预料到,这也不是“银弹”。微软、IBM和亚马逊正在致力于用人工进行软件无法处理的数据标记工作――而这正是全球自动化和算法领域的三巨头。

原文发布时间为:2016年4月13日

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-11-03 15:30:51

大数据应用?你先搞定数据获取再说的相关文章

大数据时代下 你搞清楚市场营销该怎么做了么

一是通过大数据对用户行为与特征分析.显然,只要积累足够的用户数据,才能分析出用户的喜好与购买习惯,甚至做到"比用户更了解用户自己".这是大数据营销的前提与出发点.过去虽也有"一切以客户为中心"作为口号的企业经营思想,可以想想真的能及时全面地了解客户的需求与所想吗,或许只有大数据时代这个问题的答案才能更加明确. 二是通过大数据支撑精准营销信息推送.过去多少年了,精准营销总在被许多公司提及,但是真正做到的少之又少,反而是垃圾信息泛滥.究其原因,主要是过去名义上的精准营销

WPS 2012数据透视表 轻松搞定统计难题

最近,后宫斗争越来越激烈,哪位娘娘都不是好热的,这会儿御膳房又在为统计娘娘们的水果分配问题而头疼了.今天笔者就来教他们一个轻松统计分类数据的妙招,如果你在平时的工作中面对一大堆分类数据时,也会统计起来很头疼,感到无从下手,就一起来学习一下WPS Office 2012的数据透视表功能吧,1分钟轻松统计出想要的数据.不信就一起来看看! 一.选择数据区域,创建数据透视表 打开WPS表格后,首先用鼠标框选出要统计的数据范围,点击表格上方工具栏中左面第二个选项卡"插入",随后选择"插

传统行业如何快速搭建大数据团队?

在越来越多商城沦为"试衣间".电器卖场沦为"产品体验店".建材市场沦为"材料展示中心"的今天,越来越多的传统行业已经意识到他们需要变革,需要用大数据的手段来帮助他们突破重围. 大数据的起源要归功于互联网.电商.电信运营商.金融等行业,由于这些行业自身的特点,在生产运营过程中能够天然获取海量的数据,他们是大数据行业的先行者. 但可以断言,大数据更大的需求.有广泛的应用前景仍然在传统行业,大数据将会是传统行业适应互联网时代的最佳结合点. 著名服装品牌

大数据用于医疗遭遇数据净化难题,求解?

拼写错误.以及各种不准确和过时的信息就好比米堆里的砂子,如果不挑出来,企业和研究人员就很难利用大数据技术做出一锅好饭,而数据净化要做的工作就是去芜存菁. 卡里姆·科夏瓦杰是多伦多的一名医生和网络健康顾问,他要从500名医生那里反馈的海量数据中总结出怎样才能更好地治疗病人.但是众所周知,医生的"书法"本来就堪比天书,要想让电脑识别出其中的拼写错误和缩写更是难于登天. 比如科夏瓦杰指出:"患者是否吸烟是个很重要的信息.如果你直接阅读病历,你马上就能明白医生是什么意思.但是要想让电

由阿里浪想到 关于大数据、人工智能与百度、关系网与腾讯

最近阿里入股新浪,闹的满城风雨,各种评论横空出世.那么本人基于http://www.aliyun.com/zixun/aggregation/7318.html">公司基因的角度和看未来的角度,来解读并畅想各种事情.(文中部分字段是宏观思考而非具体细节,请勿纠结) 1. 大数据.人工智能与百度 阿西莫夫在他的<基地>科幻小说系列中有一个非常诱人的理论,银河系帝国首相谢顿为了缩短人类文明崩溃后的恢复时间,将数学.统计学和心理学熔于一炉,造就了一整套数学模型,成就了可以预测人类历史

轻松搞定数据访问层[续]

访问|数据 数据库表 Tbl_Teacher 数据字段名称 类型 说明 teaID Int 自动编号 teaCode Char(20) 教师员工号 teaName Nchar(10) ? teaGender Bit ? teaNation Nchar(6) ? teaAge TinyInt ? Tbl_Student 数据字段名称 类型 说明 stuID Int 自动编号 stuCode Char(20) 学生证号 stuTeacherCode Char(20) 班主任的员工号 stuName

轻松搞定数据访问层

访问|数据 下面实现的方法,可以把你从SQL的Add,Delete,Update,Select的重复劳动解脱出来 1.实体类2.访问类 现在以下表为例tblPerson(perID,perName,perGender,perOld,perNation) 实体类Person---------IDNameGenderOldNation 访问基类DataOper------------Shared DeleteShared AddShared UpdateShared Select 访问类Person

德歌:PostgreSQL独孤九式搞定物联网

[直播预告]5月27日,阿里云高级技术专家德歌将在直播<云数据库RDS for PostgreSQL最佳实践>:https://yq.aliyun.com/webinar/join/15 ,为你分享阿里云云数据库PostgreSQL的最佳技术实战,包括PostgreSQL使用技巧.上云实战.数据迁移与同步.插件使用等内容,纯干货. 物联网行业不再仅仅只是设备的接入,设备接入后数据的采集和融合,以及融合后的分析,会为整个社会带来重要的价值.数据,让我们更真实的了解社会与自然,让人与自然.与社会更

大数据时代:休眠沉睡的政府数据看不着、查不到

长期分散在各个政府部门的各项数据"各吃各饭""各管一摊",休眠沉睡.一边是看不着.查不到,一边是握在手.落满土--大数据时代,诸多政府数据面临着如此尴尬.如何唤醒政府数据?这一大数据时代之问,已经成为社会的重要关切. 政府数据像是穿着"隐身衣" "很繁琐."面对半月谈记者的采访,长春一名硕士研究生王贺说,因研究需要,他要查阅省内县市七八十年代的经济发展数据,包括GDP增速.人均收入增速等. "这些数据县里都有,提供起