雷锋网(公众号:雷锋网)AI科技评论按,苹果近日收购了一家数据挖掘和机器学习公司LATTICE DATA,雷锋网已经日前已经对相关情况进行报道,详情请看这篇文章。
不过暗数据有哪些价值、LATTICE的技术有何特别之处、苹果此举又是出于怎样打算,很多小伙伴应该还不是很清楚,请看下文分析。
暗数据是什么?
LATTICE公司的技术要处理的对象是“暗数据”。业内把它称作“暗数据”(dark data),是因为这些数据很难直接使用。它们可能是杂乱的、多种格式共存的、进行了记录但是没有派上用场的、进行分析整合总结之前的、或者根本没有明确目的性。
总体情况而言,目前各家企业和组织收集的所有数据中,能够直接进行结构化分析或者大数据分析的数据比例其实很小。根据IDC的调查数据,90%的非结构化数据都从未被分析过。多数情况下企业觉得许多类型的数据都有直接价值或者潜在价值,所以花费资金人力进行了长期收集,比如收集用户使用自家产品的信息、统计内部软件开发进度、统计网站访问信息等等;典型的暗数据还比如,公司中存储的客户资料、服务器的日志文件、离职员工的信息、问卷调查的原始数据、按周期的财务状况表、历史邮件资料、公开的账户信息、工作产生的记事本备忘录PPT、工作报表文档的早期版本等等。
除了直觉上觉得“收集了数据就肯定有价值”之外,我们对暗数据的价值是否有理性的系统化认识呢?现在对它价值的认识主要有两种观点,一种观点基于正面价值,认为不对这些数据进行分析,就没法发现其中有些重要但尚未被人注意过的机会;另一种观点基于负面价值,如果这些未经分析的数据处理不当,可能会有法律和安全方面的许多问题。
正面价值的角度,企业有很大的机会可以通过暗数据获得发展业务的机会,比如:服务器的日志文件中可以读出网站访问者的行为;客户通话录音可以揭示客户的态度和感情;移动设备带来的位置数据可以提供访问模式。如果一家企业不对这些暗数据进行分析,那简直就是把机会白白丢掉了。不过同样地,企业也需要有更好的流程、协调和技术才能够正确地运用暗数据。
负面价值的角度,企业很可能记录了法律不允许记录的数据,一旦揭露出来会有很大麻烦;收集的企业内部信息可能泄露商业机密;如果丢失了用户数据,将会降低公司信誉;如果手握类似的用户数据,A公司没有进行分析,但是竞争对手B进行了分析,那么B就很有可能在接下来的竞争中取得优势。
处理暗数据为什么难
确定了暗数据的价值以后,就可以考虑规划行动了。但已经行动的企业很少。这是为什么呢?
主要原因有这三个:
1,收集数据时候优先级太单一。比如一个信用卡的市场团队只关心客户的信息和信誉度,那么它会记录客户在网上申请页面上填写的信息,但是不关心客户是如何来到这个申请页面的、客户对页面易用性的感受又如何。那么当客户整个申请流程的数据都记录下来后,能够有人愿意分析利用的只是其中很小的一部分。
2,技术和工具的限制。如果同一家企业和组织的数据收集是用不同的技术和工具进行的,那就有可能出现由于技术限制导致这些技术和工具之间没法互动的情况。这样一来数据就没办法全部联系在一起,展现出完整的状况。这件事情尤其容易发生在那些有多个IT系统和数据格式的公司身上。比如,想把呼叫中心的语音录音和网站上的浏览点击数据整合在一起就很难。数据分析项目还处在比较早期阶段的公司就会有这样的问题。
3,数据难以结构化。不同设备的访问历史、社交网络上的文章和下面的评论、历史邮件资料等资料,虽然整理到便于查询的格式需要花一点功夫,但好歹还是普通文本;有不少情况下数据是在DOC、XLS、PPT、PDF文档和各种图片里面的,那这样的数据要如何提取、如何结构化呢,别忘了表格里的数据要保持着表格的结构才能产生意义,而图片信息的提取单独拿出来都是一件大事。
LATTICE公司技术如何
LATTICE公司的前身DeepDive是斯坦福大学的一项研究项目,计算机科学教授克里斯·雷(Chris Re)和密歇根大学计算机科学教授迈克尔·卡法雷拉(Michael Cafarella)共同带领团队进行研发,不仅成果客观,还获得过许多企业和机构的支持。
他们和核心竞争力是数据分析处理技术,采用深度学习的方案并大大提高了可用性,可以进行训练、推理和预测,最大的亮点是能够从非结构化的数据(如一般的工作文档和图片)整理出结构化数据(如SQL数据库),并且可以把这些数据合并到现有数据库以拓展整个分析结果的深度广度。他们的技术有很多吸引人的特点:
- 入门成本低,使用者只需要考虑数据特征而不考虑算法
- 科学领域内,信息提取准确度比人类更高
- 可以适应数据的噪音和不准确性
- 可以从多种数据格式提取信息,包括网页、PDF、图像、表格等等
- 使用者可以非常简单地给与反馈和设定规则以提到特定领域内预测的准确度
- 早期模型无需训练就可以开始工作
- 高性能可拓展
LATTICE公司能帮到苹果吗
苹果的多条硬件产品线、多种软件生态服务、7亿用户群,都能够源源不断地产生用户行为数据。设备、服务、app的购买使用记录可以用来做用户画像,系统应用的使用统计数据可以分析用户习惯,每个地区市场的消费统计还可以用来分析消费趋势、出营销方案等等,而这还仅仅是基础的、很容易想到的用途。如果大家还记得之前爆出过iOS设备存储用户几个月内的GPS定位记录,其实已经表明,除了我们容易想到的使用记录和购买记录之外,还有不少数据也被记录了,这些数据不仅更隐私,泄露以后对用户还会有很大的威胁。
根据苹果有能力收集的数据和LATTICE所能提供的技术,雷锋网AI科技评论推测苹果可能有如下打算:
一,苹果记录的用户数据已经非常之多,首先需要考量数据存储的安全性和可靠性,避免丢失和泄露,最好还能同时提升可用性;
二,通过深入分析用户使用习惯数据,建立用户模型,了解和预测用户需求,继续优化用户体验,作为后乔布斯时代“满足用户需求,创造新的增长点”策略的行动之一;
三,现在的人工智能研究严重依赖数据,可以把用户产生的海量数据用于训练自己的人工智能
四,苹果对全球员工和全球供应商的信息管理也可以借此机会进行升级,继续提高信息管理水平
不过鉴于苹果的保密文化,外人可能最终也无从得知他们到底做了什么。不过这起码也给其它科技企业提了醒:别让自己花了人力财力收集的数据躺在服务器里睡大觉了。
AI科技评论招业界记者啦!
在这里,你可以密切关注海外会议的大牛演讲;可以采访国内巨头实验室的技术专家;对人工智能的动态了如指掌;更能深入剖析AI前沿的技术与未来!
如果你:
*对人工智能有一定的兴趣或了解
* 求知欲强,具备强大的学习能力
* 有AI业界报道或者媒体经验优先
简历投递:
lizongren@leiphone.com
相关文章:
本文作者:杨晓凡
本文转自雷锋网禁止二次转载,原文链接