云中的大数据:数据速度、数据量、种类、真实性

本文重点介绍使用大数据的应用程序,解释大数据分析背后的基本概念,以及如何将这些概念与商业智能 (BI) 应用程序和并行技术相结合,比如 “云扩展” 系列第 3 部分中介绍的计算机视觉 (CV) 和机器学习方法。

大数据分析与视频分析的区别在于所处理数据类型的广度上,而且与所使用的数据挖掘或 MapReduce 方 法相比,所提供的交互式分析和搜索工具可能更加复杂,而且比 Google BigQuery 的运行时间长得多。例如 ,Google BigQuery 使用列式搜索来压缩和加速海量非结构化数据的交互式搜索。事实上,在 “An Inside Look at Google BigQuery”中,Google 解释说只需数十秒,BigQuery 即可在包含大约 350 亿行、20TB 的庞大日志表上执行正则表达式文本匹配。该工具的 MapReduce 功能的运行时间更长,但提供 了复杂的数据精减。

任何拥有 Google 帐户的人都可使用 BigQuery。或者,要快速了解典型的大数据搜索,可下载我的照片 并上传到 Google Images。您应获得所有包含我的图像的相同页面(来自 IBM、科罗拉多州大学博尔德分校 等),包括至少一次错误肯定。我使用此示例主要是为了确保下载的图像拥有合适的照片信誉并授予了重用 权限。与这里分析的其他示例一样,此示例展示了大数据的实质,那就是在一个非结构化的数据堆(实际上 更可能是数百万个数据堆)中寻找一条有用信息。

定义大数据

大数据 的从广义上来说定义为采集、管理和分析超出典型结构化数据范围的数据,这些数据可通过关系 数据库管理系统查询 — 查询来源常常是非结构化文件、数字视频、图像、传感器数据、日志文件,以 及几乎未包含在具有明显可搜索字段的记录中的任何数据。从某种意义上说,非结构化数据是一种有趣的数 据,但如果不与结构化数据相关联,则难以合成到 BI 中或从中得出结论。

大数据还拥有新的来源,比如机器生成的文件(日志文件或传感器网络)、移动设备(视频、照片和文本 消息),以及机器到机器传输的数据,通过这种数据,物联网报告状态来进行车队或飞机群的维护规划,或 一般遥测监视等。分析此数据的一种方式是分析数据量 的特征。IBM 估计,现在每天会创建 2.5 万兆 (quintillion) (2,500,000,000,000,000,000) 字节的数据。第二是速度,由于网络带宽增大(如今通常为 GB 级速率,比如 gigE、10G、40G、100G,而不是 MB 级速率),数据速率也在不断增长。第三是种类,现 在包含更多非结构化数据类型,比如数字视频流和传感器数据,以及日志文件。最后是数据的真实性,或者 在需要依赖这些高速收集的大量数据而制定关键决策时,对数据的信任程度有多高。知道数据实际上没有假 冒,没有损坏或来自预期的来源并不容易 — 举例而言,数据可能来自数千个安全照相机中的一个,每 个照相机每小时生成数千帧视频。所以,让我们列出一些大数据的关键方面、应用程序和系统,以便更好地 理解它们。

大数据来自何处?

大数据的产生主要源于移动设备的进步,这些设备现在包含数字视频、照片、音频和高级的电子邮件及文 本特性。用户收集的数据量比 10 年前多得多;同样,Google Translate 等新应用程序提供了大数据服务器 特性 — 向移动设备说出或键入的短语的自然语言翻译。在 2013 年的全球技术展望中,IBM 认为大数 据受移动优先战略的推动,而且通过数据量、种类、速度和真实性来描绘大数据。这些数据自然远远没有关 系数据库记录那么结构化,但可与这些数据相关联。本文详细介绍大数据的构成。

或许理解大数据的最佳方式是回顾它的历史,Forbes Magazine 就是这么做的。当然,被视为大数据的数 据规模现在正在以每天超过 2.5 EB 的速度增长。有趣的是,大部分数据永远不会被人类查阅(依据美国人 口普查记录,全球有 70 亿人,每个人每天需要查阅超过 300MB 信息)。考虑到这一挑战,使用如此多数据 的惟一合理的方式是,对大数据执行机器到机器自动化或智能查询。而且,如果长期保存这么多的数据,人 们如何知道是否有部分数据已损坏?当然,我们可以存储数据摘要(比如 MD5,这是一种校验和格式)并使 用独立磁盘冗余阵列(RAID — 使用镜像、XOR 奇偶校验或纠删码来检测并恢复损坏的数据),但人们 越来越担心一些数据可能遭受静默损坏。

Internet Archive(一个数据管理机构)对此关注进行了调查。总体来讲,大数据的真实性是一大挑战, 但纠删码和先进的数据摘要方法表现出了巨大潜力。XOR RAID 或简单镜像等传统方法正被 RAID-6 和更高级 的纠删码取代。这些传统方法在存储设备发生故障时仅提供了针对数据丢失的单一故障保护,不会处理由软 件缺陷、数据中心操作员错误或媒体故障导致的不易察觉的损坏场景。大数据的数据持久性概念已变得非常 重要,我曾与 Intel 和 Amplidata 使用数学模型联合研究了这一主题。对于如此多的数据,人们检查它的 真实性的想法完全行不通,而且只有在很久以后最终查询或访问这些数据时,才会注意到这些数据已丢失。

大数据系统设计

用于大规模数据保护的架构应包含对以下方面的防御:丢失、静默损坏、恶意软件,以及网络罪犯或通过 网络战争对数据执行的恶意修改。数据是一种资产,越来越多地被政府和企业用于制定重要决策,但如果数 据的真实性未知,那么数据的价值就会下降或者甚至可能失去 — 或者更糟的情况是做出错误决策。这 个主题不属于本文的介绍范畴,但显然对数据的丢失和未检测到的修改或损坏的防御不可或缺。

更好地理解大数据的一种方式是,更详细地分析一些拥有足够数据(通常为数 PB)的云网站和供应用程 序使用的查询工具(通常为数 TB)。我们中的大部分人每天都在使用 Google 查询,但 Google 还提供了 BigQuery,这个工具使用了更复杂的列式存储和搜索(将作为一个示例进行更详细的讨论)。其他著名的示 例包括 Facebook(社交网络)、Wikipedia(常识采集)、Internet Archive(数字数据管理机构)、 DigitalGlobe(地理信息系统 [GIS])、Microsoft Virtual Earth (GIS)、Google Earth (GIS) 和许多新 的大数据服务提供商。

公司拥有内部的大数据,在私有云系统上也拥有大数据。许多大数据系统对用户查询是只读模式(从机器 生成的来源采集),但如果它们允许更新数据库或非结构化数据,则可能包含使用密码短语的强身份验证, 这就需要用户通过移动电话文本消息确认代码来进行身份验证,使用图形质询来验证人类的数据输入,或许 在未来更多地使用生物学身份验证。

大数据应用程序

人们每天都在为 CV 和视频分析构思杀手级应用程序,但由于计算需求或实现成本的制约,一些应用程序 需要好多年才能实现。尽管如此,以下是一些有趣的应用程序的列表:

事实证明,使用 Google Trends 的股票市场态度分析能与历史指数的下降和上升建立良好的关联,这或 许并不新奇,但在作为一种大数据应用具有重要的意义。文章 “使用 Google Trends 量化金融市场中 的交易行为”提供的证据表明,使用态度分析来制定长期和短期的股票购买和销售决策,可能胜过简单 的买入并持有战略和指数型基金投资。这项研究无疑需要更多分析,但很有吸引力。但是,一个有趣的考虑 因素是,当这些基于机器的交易系统与现有的程式交易一同存在时,会发生什么。

来自 Google 的 Picasa 照片排序是一个很有用的工具,允许用户排序、查询,以及结合使用 CV 技术和 机器学习来自动识别面部。这是体验大数据服务和应用程序的价值的一种不错的方式。这种方式清晰地表明 ,大数据分析将需要 CV 等高级分析和机器视觉等方法。

Pandora(音乐)、Netflix(影片)和 Amazon(图书和产品)等推荐系统在一种称为协作式过滤 的方法 中使用客户数据和多个代理。这项大数据服务已成为机器学习和数据挖掘领域的更高级的研究主题。显然, 提出好建议的能力可增加销量,并提高客户满意度。

客户群分析可将社交网络数据(例如 Facebook 和 Twitter)与从传统的客户交易记录收集的 BI 相关联 ,并基于此文本数据而提供客户的态度分析。态度分析使企业能够知道客户对其产品的想法,他们对该企业 或竞争对手的兴趣,以及他们喜欢什么和不喜欢什么等。

来自传感器网络(例如嵌入在城市交通、红绿灯和一般基础设施等大型系统中的传感器)的机器生成的数 据;机器到机器数据,来自一个机器(通常位于现场)的传感器或日志数据被另一个机器吸收;还有日志文 件,最常由 IT 用于调试问题和管理系统异常(在它们不需要人类干预来执行恢复和持续操作时忽略它们) 。

旅游预定系统通过合并客户偏好、后勤和以前的历史行为而得以改进,从而为一直以来艰难的旅程规划任 务提供有帮助的建议。

娱乐社交网络正在取代广播电视和影片的茶水间里讨论的社交方面,其中点播式数字媒体现在允许任何人 几乎随时随地观看内容,但仍然通过社交网络分享经验。尽管这使内容使用更有乐趣,但它使内容创建者、 脚本编写者和艺术家能够真正比以往更好地了解其受众。

医疗诊断常常包含基于规则的专家决策支持系统 (DSS),但借助大数据,有证据表明这些系统可能完全脱 离于研究,并成为主流的医疗助手。例如,协助对患者的自杀风险进行客观心理评估的新 DSS 已在研究中展 现出了前景。证明这些系统的价值一种方式是,将它们与历史数据对比:这些系统不会取代人类的决策,还 在用作支持工具时有可能改善决策。

这绝不是大数据应用的完整列表。列式查询、非结构化数据分析、MapReduce 以及大数据可视化和推理等 应用仅仅是入门级别。

时间: 2024-10-01 08:27:07

云中的大数据:数据速度、数据量、种类、真实性的相关文章

HPE大数据的“速度与激情”

近日,Hewlett Packard Enterprise(HPE)举办了2016年大数据世界之旅的活动,HPE将这次活动称为"大数据的速度与激情",HPE 中国区副总裁.软件集团总经理李时表示:"当下,企业面临的一个很大的机会和挑战,就是怎样将企业内部所产生的数据和企业外部社交媒体.客户的反馈,以及广告.视频.音频等数据,利用大数据技术为企业提升营收.提升客户满意度.降低运营成本和风险,为企业创造更多的价值 ." 李时认为,要做到这一点,很重要的第一步就是借助大数

全球正在同步上演一个大片:大数据的速度与激情

"经过50年的发展,人类和数据技术高度整合,这在以前是无法想象的事情.当下正是物联网时代,做好大数据,就是要让数据来讲故事,通过通俗易懂的可视化分析,让人们理解并相信,我们处在一个非常美好的时代--"近日,2016全球大数据应用研究论坛在青岛西海岸新区举行,美国未来之窗科技公司创始合伙人.首席执行官斯考特·克罗索斯基在主题演讲时表达了上述观点. 在为期3天的论坛上,来自国内外的600余位大数据专家学者.行业精英共同发布了<黄岛共识>,认为全球已进入以数据研究应用为导向的&q

阿里巴巴大数据实践之数据建模

随着DT时代互联网.智能设备及其他信息技术的发展,数据爆发式增长,如何将这些数据进行有序.有结构地分类组织和存储是我们面临的一个挑战. 为什么需要数据建模 如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置:如果把数据看作城市的建筑,我们希望城市规划布局合理:如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措. 数据模型就是数据组织和存储方法,它强调从业务.数据存取和使用角度合理存储数据.Linux的创始

双11媒体大屏背后的数据技术与产品

2016年双11阿里巴巴的产品成交额达到1207亿元,而面对与交易额一样巨大的流量洪峰,直播媒体大屏是怎样做到将交易数据实时计算并且准确显示出来的呢?在这背后究竟用到了哪些数据技术与产品呢?本次阿里巴巴2016双11技术创新论坛上,来自阿里巴巴数据技术与产品部的高级技术专家罗金鹏(藏六)就为大家分享双11媒体大屏背后的那些事. 以下内容根据演讲视频以及PPT整理而成. 本次为大家分享<双11媒体大屏背后的数据技术与产品>.阿里巴巴从2009年开始双11产品大促,从最初的5千万的产品成交额,到2

从数据来源、数据生态、数据技术、数加平台等方面,漫谈阿里大数据

目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的. 一,DT时代 大数据这个概念,其实在上世纪九十年代就有人提出来了,当时希望通过将所有零散的数据归并起来,然后进行数据挖掘,以看到以前存在的问题,去预测未来几年的趋势,来指导商业决策.比如保险行业,人寿保险会通过大数据的统计计算,根据人均寿命来计算保费与回报率. 这

大数据异构环境数据同步工具DataX 与Sqoop 之比较

从接触DataX起就有一个疑问,它和Sqoop到底有什么区别,昨天部署好了DataX和Sqoop,就可以对两者进行更深入的了解了. 两者从原理上看有点相似,都是解决异构环境的数据交换问题,都支持oracle,mysql,hdfs,hive的互相交换,对于不同数据库的支持都是插件式的,对于新增的数据源类型,只要新开发一个插件就好了, 但是只细看两者的架构图,很快就会发现明显的不同 DataX架构图 Job: 一道数据同步作业 Splitter: 作业切分模块,将一个大任务与分解成多个可以并发的小任

大数据开发套件—数据集成常见问题

我们在进行大数据开发过程中,会遇到各种问题,本文将定期收集整理一些在使用阿里云数加 大数据开发套件 过程中遇到的常见问题,供大家参考~ Q: 配置数据同步任务,在选择数据源时,出现下图中的错误,该怎么办? A: 建议您刷新页面,清空缓存,重新登录. Q:数据同步时,如何进行增量同步? A: 具体操作可参考 数据增量同步 文档 . Q:新增数据源时,RDS 数据源测试连通性不通怎么办? A:当 RDS 数据源测试连通性不通时,需要到自己的 RDS 上添加数据同步机器 IP 白名单: 10.152.

大数据环境下金数据们的轻态数据服务还有机会

大数据是近几年IT业界中非常火热的一个词汇,由于当前主流的一些软件工具并不能满足人们对于巨量数据的挖掘.收集.整理.分析的需求的缘故,国内外都出现了不少根据这个痛点而进行突破的大数据服务企业. 当IT数据领域主流的发展目标都致力在大数据服务上的时候,那些针对中小团队甚至个人的数据服务是否又还是拥有较大的市场继续挖掘呢? 国庆放假期间,偶然间在微信朋友圈中打开了一位微信好友分享过来的问卷调查链接.问卷调查的内容没有太多复杂的选项,很多需要你选择的地方都是一个相对比较广泛领域中少数的几个选择.虽然我

大数据另一个方向——大数据变成“小数据”

大数据有两个发展方向.一个是方向大家比较熟悉的"数据收集.分析",借此了解客户需求.明确产品方向等等.我还在人工智能.机器学习等领域做了一些研究,思考怎样把这些先进的技术和数据技术综合在一起,让大数据不仅能帮人做决策,而且能够真正自己做一些简单决策,让人有时间和精力去做更复杂的决定. 另外一个方向是"数据即服务".亚马逊的AWS云计算是"基础设施即服务",Salesforce是"软件即服务".Splunk是做大数据的管理平台,