Google BigQuery带你走进大数据

在大数据时代,大数据这三个字被好多人经常挂在嘴边。但大于大部分普通人来说,对大数据真正的含义并不十分清晰,很多人仍处于懵懂的入门阶段。乍一看,大数据项目可能会有些吓人,尤其是如果包含了设置和管理Hadoop集群。如果你更习惯于SQL,而不是MapReduce,但是发现关系型数据库不符合分析需求。若想对大数据有一些真正的了解,Google BigQuery值得一看。它为我们提供了大数据分析入门级方法。

BigQuery减少了分析大型数据集面临的一些实现挑战。价格模型促进了统计分析技能的发掘,因此可以从数据样品中导出有用的信息,而不是针对全部数据集进行蛮力分析。

有时,要用大数据工作意味着处理速度的精确。比如,如果想要确定操作同一网站的两个不同的客户群组是否不同,应该分析网站上与所有这些客户活动相关每一个登录日志。或者,可以取出一部分客户子集样例,分析这些样例之间的不同。基础统计提供了工具,可以帮助理解这种类型分析的错误率,只要错误在可接受范围内,结果对于决策制定就是有效的。

在TOP功能中可以看到这种交换,通过grouping和sorting操作返回顶行发现。可能返回近似的结果,但是这个函数通常比使用“group by”、“order by”和“"limit”的组合语句更快速。

Google BigQuery操作特性

BigQuery旨在分析数十亿行近似的数据,使用类SQL语法。它并不是完全符合SQL数据库的替代,并不适用于交易处理应用。BigQuery支持分析交互风格。使用SELECT命令构建查询,对于任何SQL开发者都应该很熟悉。

查询语言包括支持标准操作,比如joining、sorting和grouping,以及内嵌数据结构。正如我们所期望的大数据分析服务,可以支持统计函数,比如count、sum、average、variance和standard deviation(标准偏差)。Grouping函数和描述性统计的结合相当直接的在两个总体中比较平均数和变异数。

入门级大数据分析:Google BigQuery

联接是标准化数据模型必要的操作,但是计算昂贵。BigQuery函数中的JOIN运算符类似于SQL join,但是在联接两个表时,其中一个表必须是8MB或者压缩到更小。这种类型的限制可以进行更加有效的联接操作,因为更小的表可以有效高速缓存,联接到更大的表。如果必须联接两个大型表,可以使用JOIN EACH操作,但是性能就会更慢。

可以使用简单的浏览器界面同BigQuery进行交互操作。浏览器工具保留查询历史,提供了构造查询的工作局域。这是一种基本的工具;并不具备SQL开发者工具中全面的功能,比如MySQL Workbench和DBVisualizer。也可以通过命令行界面工作。

Google BigQuery的价格模型

通过访问Google的云资源,你可能想知道为什么你要为查询样例或者近似结果操心,毕竟,你可以在这个问题上投入更多的硬件不是吗?对,你可以,但是BigQuery基于你分析了多少数据来收费。

Google的价格模型基于存储和分析的数据总量。存储费用是每月0.12GB美元。交互查询为每处理1GB 0.035美元,包查询费用为0.02美元/GB。为了限制处理的数据量,可以限制分析的行数,包括你实际需要结果的列。BigQuery使用柱状数据存储,因此并不是所有的行数据,在一个或者更多列查询时回复。

数据存入BigQuery,使用负载工作,可以同Google Cloud Storage的数据工作,或者使用POST请求本地文件系统中的数据。文件可以格式化成为CSV或者JSON格式。压缩文件限制到1GB,但是非压缩文件能到1TB。负载工作包括多达一万个文件,但是所有文件的大小总和不能超过1TB。由于每天每个表可以拥有多达1000个负载工作,这些定额对于大多数项目不见得有实际的影响。

关于作者

Dan Sullivan,理科硕士、作者、系统架构师兼咨询师,用20多年IT经验。他在高级分析、系统架构、数据库设计、企业安全和商务智能方面很有威望。他熟悉很多产业,包括金融服务、制造业、制药、软件开发、政府、零售和教育。Dan撰写文章涉及的范围广泛,包括数据仓库、云计算和高级分析、安全管理、协作以及文本挖掘。

时间: 2024-08-31 15:19:08

Google BigQuery带你走进大数据的相关文章

Google BigQuery:在云端处理大数据

BigQuery是Google推出的一项Web服务,用来在云端处理大数据.本文简单地介绍了一下Google BigQuery,及BigQuery使用SQL在云端处理大数据的优势. 如今,大数据的话题正围绕着企业内部部署的系统之中,Google正在建设在云中分析大数据的服务.Google的这项服务被称为BigQuery,Google 产品经理Ju-Kay Kwek在近日在纽约举行的GigaOM会议上表示BigQuery将有助于企业在没有硬件基础设施的情况下分析他们的数据.同时可以建立应用程序和数据

快上车!老司机带你走进“大数据及阿里云数据分析平台”

本次培训讲座是由阿里巴巴创新中心·优客工场(天津于家堡)和天津云顶云科技有限公司联合举办,由阿里云大数据高级认证讲师--宋亚奇博士主讲,旨在通过对大数据及阿里云数加平台的介绍,帮助天津市企业更好的理解大数据,以及更合理有效的利用数据资源促进公司业务发展. | 目标人群 | 1.管理人员以及技术/市场/销售人员2.有兴趣了解大数据的所有人员 | 培训相关 | 时间:2017年5月27日,14:00-17:00地点:天津自贸试验区新华路3678号新金融大厦11层[阿里巴巴创新中心·优客工场(天津于家

Taste Analytics带你畅游大数据未来

文章讲的是Taste Analytics带你畅游大数据未来,近年来"大数据"及"数据分析"的概念火爆异常,然面对大数据分析时,国内外却有着不小的差距,国内企业仍以结构化数据分析为主,而美国的很多企业却早已向非结构化数据迈进. 非结构化数据分析目前属于非常前沿的技术,需求量很大,但是在市场上几乎是一片空白,Derek Wang(汪晓宇博士--美国数据分析科学家.前北卡大学夏洛特分校助理敎授.夏洛特视觉中心主任)与其团队看到这个领域的巨大潜力,并且把握住了机会,悉心研发

云开雾散,带你看看大数据行业

本文PPT来自阿里云大数据孵化器的王峰(花名:九卿)于10月16日在2016年杭州云栖大会上发表的<云开雾散-大数据行业精准发力案例分享>. 如果问现在这个时代什么方向最火爆?大数据无疑是最热门的选择.大数据主要由三大要素组成:Data(海量的数据).AI(如统计算法)和Service(如API界面).通过大数据,人们解决可以解决一下问题: 第一,大数据解决了行业的通用问题,让市场有谱,让舆情可控,满足了企业对于情报洞察.风险洞察的诉求. 第二,针对传统零售面临的爆仓.缺货等问题,大数据能有效

中国文物,走进大数据时代

这是一场"永不落幕的系统工程".新中国成立以来在可移动遗产领域开展的首次文物调查,从去年开始,将历时5年,涉及150余万个国有单位,对国宝做一个全面调查.那么,此次国宝大调查最新进展如何?遇到了什么困难?又该如何更好地保护国宝呢?日前,记者来到重庆.四川,走进普查的现场. 进展:国有单位文物摸底基本完成 在重庆市文化遗产研究院,工作人员正在对文物进行登记填表,密密的表格包括了文物名称.类别.级别.年代.质地.外形尺寸.质量等内容,工作人员不时利用各种工具对数据进行核实.在保管部库房内,

Google的内部报告:大数据的类型和数量同样重要

一份来自Google的内部报告显示,大数据在构建面向消费者的服务(如智能手机中的http://www.aliyun.com/zixun/aggregation/10648.html">语音搜索)时尤其重要.用来训练人工智能模型的数据越多,它越有可能猜出你下一句会说啥.虽然这份报告背后的数学知识可能超出大部分人的理解范围,但是原理并不复杂.报告还提到了为何大家都对"大数据"这一概念如此兴奋,以及选择恰当的数据来训练智能模型的重要性. Google一直秉承着这样一个观点:&

走进大数据之拓扑数据分析方法

拓扑数据分析(TDA),顾名思义,就是把拓扑学与数据分析结合的一种分析方法,用于深入研究大数据中潜藏的有价值的关系. 相比于主成分分析.聚类分析这些常用的方法,TDA不仅可以有效地捕捉高维数据空间的拓扑信息,而且擅长发现一些用传统方法无法发现的小分类.这种方法也因此曾在基因与癌症研究领域大显身手. 1.什么是拓扑数据分析 拓扑学研究的是一些特殊的几何性质,这些性质在图形连续改变形状后还能继续保持不变,称为"拓扑性质".而在复杂的高维数据内部也存在着类似的结构性质,我们可以形象地称之为数

美国数据分析科学家带你看看大数据的未来

ZD至顶网CIO与应用频道 10月08日 评论消息:从SGI的首席科学家John R. Masey在1998年提出大数据概念,到大数据分析技术广泛应用于社会的各个领域,已经走过了17年的时间.现在再也没有企业怀疑大数据分析的力量,并且都在竞相利用大数据来增强自己企业的业务竞争力.但是,即使17年过去,大数据分析行业仍然处于快速发展的初期,每时每刻都在产生新的变化. 从概念到实用.从结构化数据分析到非结构化数据分析,大数据分析技术在不断地进化.虽然国内仍然在关注舆情分析,但是记者注意到,在美国,大

美国数据科学家带你看看大数据的未来

从SGI的首席科学家John R. Masey在1998年提出大数据概念,到大数据分析技术广泛应用于社会的各个领域,已经走过了17年的时间.现在再也没有企业怀疑大数据分析的力量,并且都在竞相利用大数据来增强自己企业的业务竞争力.但是,即使17年过去,大数据分析行业仍然处于快速发展的初期,每时每刻都在产生新的变化. 从概念到实用.从结构化数据分析到非结构化数据分析,大数据分析技术在不断地进化.虽然国内仍然在关注舆情分析,但是记者注意到,在美国,大数据分析的研究已经进入到了一个全新的阶段,"预测分析