人们应该知道的大数据术语

大数据带来了许多新的术语,但一些术语往往不太好理解。以下是人们应该了解的大数据术语列表:

以下进行一个简短的回顾,以前曾经介绍了算法,分析,描述性分析,预处理分析,预测分析,批处理,Cassandra,云计算,集群计算,暗数据,数据湖,数据挖掘,数据科学家,分布式文件系统,ETL,Hadoop,内存计算,物联网,机器学习,Mapreduce,NoSQL,R,Spark,流处理,结构化。非结构化数据等25个大数据的术语,现在再了解一下50个大数据术语。

Apache软件基金会(ASF):提供了许多大数据的开源项目,目前有350多个项目。是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的Apache项目与子项目中,所发行的软件产品都遵循Apache许可证。

Apache Kafka:以著名的捷克作家命名的Apache Kafka用于构建实时数据流管道和流媒体应用程序。为什么这么受欢迎?因为它能够以容错的方式存储,管理和处理数据流,并且十分快速。鉴于社交网络环境处理数据流,Kafka目前非常受欢迎。

ApacheMahout:Mahout提供了一个用于机器学习和数据挖掘的预制算法库,也是创建更多算法的环境。换句话说,是一个机器学习的天堂环境。

ApacheOozie:在任何编程环境中,需要一些工作流程系统来以预定义的方式和定义的依赖关系来安排和运行工作。Oozie提供的大数据工作以Apachepig,MapReduce和Hive等语言编写。

Apache Drill,Apache Impala,Apache Spark SQL:所有这些都提供了快速和交互式的SQL,如与ApacheHadoop数据的交互。如果你已经知道SQL,并处理以大数据格式(即HBase或HDFS)存储的数据,这些功能将非常有用。

ApacheHive:知道SQL?然后采用Hive握手。Hive便于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。

ApachePig:Pig是在大型分布式数据集上创建查询执行例程的平台。所使用的脚本语言叫做PigLatin。据说Pig很容易理解和学习。但问题是有多少人能从Pig学到什么?

Apach eSqoop:用于将数据从Hadoop移动到非Hadoop数据存储(如数据仓库和关系数据库)的工具。

Apache Storm:一个免费的开源实时分布式计算系统。它使得使用Hadoop进行批处理的瞬时处理可以更容易地处理非结构化数据。

人工智能(AI):人们可能会问,为什么在这里会有人工智能?人工智能不是一个单独的领域,所有这些趋势技术都是如此相关,人工智能开发智能机器和软件的方式,使得硬件和软件的这种组合能够感知环境,在需要时采取必要的措施,并继续学习这些操作。

行为分析:有没有想过谷歌如何为人们需要的产品/服务提供广告?行为分析侧重于理解消费者和应用程序所做的事情,以及如何以及为什么它们以某种方式起作用。它是关于了解人们的网上冲浪模式,社交媒体互动,电子商务行动(购物车等),并连接这些无关的数据点,并试图预测结果。

Brontobytes:10的27次幂,这是数字宇宙的大小。在这里,可以了解TB字节,PB字节,EB字节,ZB字节,YB字节,以及Brontobyte。人们今后会更多地了解这些术语。

商业智能(BI):在这里引用调研机构Gartner对商业智能的定义。商业智能(BI)是一个总括的术语,其中包括应用程序,基础设施和工具以及最佳实践,可以访问和分析信息,以改善和优化决策和绩效。

生物特征:这就是JamesBondish技术与分析技术相结合,通过一个或多个物理特征识别人,如面部识别,虹膜识别,指纹识别等。

点击流分析:用于分析用户在网络上浏览的在线点击。曾经想过为什么某些Google广告还会继续关注你,即使切换网站等?因为知道你在点击什么。

聚类分析:试图识别数据中的结构的探索性分析。聚类分析也称为分割分析或分类分析。更具体地说,它试图确定同一组案例,即观察者,参与者,回答者。如果分组不是先前已知的,则使用聚类分析来识别病例组。因为它是探索性的,它确定了依赖变量和独立变量之间的区别。SPSS提供的不同的聚类分析方法可以处理二进制,名义,顺序和比例(间隔或比率)数据。

比较分析:大数据的核心在分析中。顾名思义,比较分析是使用诸如模式分析,过滤和决策树分析之类的统计技术来比较多个进程,数据集或其他对象。人们知道它的技术性很差,但不能完全避开这个术语。比较分析可用于医疗保健,比较大量的医疗记录,文件,图像等更有效和更准确的医疗诊断。

连接分析:你一定已经看到这些像蜘蛛网一样的网络图表连接主题等,以识别某些主题的影响者。连接分析是有助于发现网络中人员,产品和系统之间的这些相互关联的连接和影响,甚至组合来自多个网络的数据的分析。

数据分析师:数据分析师是一个非常重要和受欢迎的工作职位,除了准备报告之外,它还负责收集,操纵和分析数据。

数据清理:这有点不言自明,它涉及从数据库中检测和纠正或删除不准确的数据或记录。还记得“脏数据”吗?那么,使用人工和自动化工具和算法的组合,数据分析人员可以纠正和丰富数据以提高其质量。记住,肮脏的数据会导致错误的分析和错误的决策。

DaaS:你有SaaS,PaaS和DaaS为代表的数据即服务吗?通过向客户提供按需访问云托管数据,DaaS提供商可以帮助快速获取高质量的数据。

数据虚拟化:这是数据管理的一种方法,允许应用程序检索和操作数据,而不需要其存储位置及其格式等的技术细节。例如,社交网络将人们的照片存储在他们的网络中。

脏数据:现在,大数据变得很流行,人们开始在数据中添加形容词,产生新的术语,如暗数据、脏数据、小数据,现在是智能数据。肮脏的数据就是不干净的数据,换句话说,是不准确、重复的,以及不一致的数据。显然,企业不希望与脏数据关联。

模糊逻辑:人们对100%这样的事物有多少把握?非常罕见。人类的大脑将数据聚合成部分真理,然后再抽象成某种阈值,来决定我们的反应。模糊逻辑是一种通过模仿部分真理来模仿人脑的运算,而不是像布尔代数的其余部分那样的“0”和“1”这样的绝对真理。模糊逻辑在自然语言处理中得到了广泛的应用,并已发展成为其他与数据相关的学科。

游戏化:在一个典型的游戏中,有人们喜欢的得分要素,与他人竞争,某些游戏规则等元素。大数据中的游戏化是使用这些概念来收集数据或分析数据或通常激励用户。

图形数据库:图形数据库使用的概念,如节点和边界代表人员/企业和他们的相互关系,从社交媒体挖掘数据。曾经想过,亚马逊如何告诉你在购买产品时,别人买了什么?是的,图形数据库!

Hadoop用户体验(Hue):Hue是一个开放源代码界面,使Apache Hadoop变得更加容易。它是一个基于Web的应用程序,并且具有用于HDFS的文件浏览器,MapReduce的作业设计器,用于制作协调器和工作流程的Oozie应用程序,Shell,Impala和HiveUI以及一组HadoopAPI。

HANA:高性能分析应用程序,来自SAP的软件/硬件内存中平台,专为大量数据交易和分析而设计。

HBase:一个分布式,面向列的数据库。它使用HDFS作为其底层存储,并支持使用MapReduce和事务交互的批量计算。

负载平衡:跨多台计算机或服务器分布工作负载,以实现系统的最佳结果和利用率。

元数据:元数据是描述其他数据的数据。元数据总结了有关数据的基本信息,可以使查找和处理特定数据实例更容易。例如,作者,创建日期和日期修改以及文件大小是非常基本的文档元数据。除文档文件外,元数据也用于图像,视频,电子表格和网页。

Mongo DB:一个跨平台的开源数据库,它使用面向文档的数据模型,而不是传统的基于关系数据库的表结构。这种类型的数据库结构旨在使结构化和非结构化数据在某些类型的应用程序中更加容易和快速地集成。

Mashup:幸运的是,这个术语对于我们在日常生活中了解mashup的定义类似。基本上,Mashup是将不同数据集合并为单个应用程序的一种方法(示例:将房地产清单与人口统计数据或地理数据相结合)。这是一个非常好的可视化。

多维数据库:针对数据在线分析处理(OLAP)应用程序和数据仓库进行优化的数据库。它只不过是数据多个数据源的中央存储库。

多值数据库:它们是一种直接了解三维数据的NoSQL和多维数据库。它们直接用于直接操作HTML和XML字符串。

自然语言处理:为使计算机更精确地理解日常人类语言而设计的软件算法,使人们能够更自然、更有效地与之交互。

神经网络:神经网络是一个美丽的生物学启发的编程范例,使计算机能够从观测数据中学习。有人称编程范例很美,本质上,人工神经网络是由现实生活中大脑的生物学启发的模型。与这种神经网络密切相关的是深度学习。深入学习则是一套功能强大的神经网络学习技术。

模式识别:当一个算法在大数据集或不同的数据集中定位递归或规律时,就会出现模式识别。它紧密相连,甚至被认为是机器学习和数据挖掘的代名词。这种可见性可以帮助研究人员发现见解或得出结论,否则会被掩盖。

RFID-射频识别:一种使用无线非接触式射频电磁场传输数据的传感器。随着物联网革命,RFID标签可以嵌入到每一个可能的“东西”中,以产生需要分析的巨大数据量。

SaaS:软件即服务,使供应商能够托管应用程序并通过互联网使其可用。SaaS提供商通过云计算提供服务。

半结构化数据:半结构化数据是指以常规方式未被捕获或格式化的数据,例如与传统数据库字段或公共数据模型相关联的数据。它也不是原始的或完全非结构化的,并且可能包含一些数据表,标签或其他结构元素。图形和表格,XML文档和电子邮件是半结构化数据的示例,它在万维网上是非常普遍的,通常在面向对象的数据库中。

情绪分析:情绪分析涉及捕捉和跟踪消费者在各种交互或文件(包括社交媒体,客户服务代表呼叫,调查等)中表达的意见,情绪或感受。文本分析和自然语言处理是情绪分析过程中的典型活动。目标是确定或评估对公司,产品,服务,人员或事件表达的情绪或态度。

空间分析:指分析地理数据或拓扑数据的空间数据,以识别和理解分布在地理空间中的数据内的模式和规律。

流处理:流处理旨在通过“连续”查询对实时和流数据进行操作。随着从社交网络不断流出的数据,流处理和流分析的确需要在这些流中不间断地计算数学或统计分析,以便实时处理大量的数据。

智能数据:智能数据据称是在通过算法进行的一些过滤之后,其数据是有用的和可操作的。

TB字节:一个相对较大的数字数据单元,一T字节(TB)等于1000GB字节。据估计,10T字节可以容纳美国国会图书馆的全部印刷品,而1T字节可以容纳1000份百科全书。

可视化:通过正确的可视化,原始数据可以投入使用。当然可视化并不意味着普通的图形或饼图。它们是指可以包含许多数据变量的复杂图形,同时仍然可以理解和可读

Yabyabytes:约1000ZB,或2500亿张的DVD容量。如今的整个数字宇宙是1 Yabyabytes,这将每18个月翻一番。

Zettabytes:大约1000EB字节或10亿TB字节。 

原文发布时间为:2017-10-25

本文作者:佚名

时间: 2024-08-01 20:02:50

人们应该知道的大数据术语的相关文章

常见的大数据术语表(中英对照)

大数据的出现带来了许多新的术语,但这些术语往往比较难以理解.因此,我们通过本文给出一个常用的大数据术语表,抛砖引玉,供大家深入了解.其中部分定义参考了相应的博客文章.当然,这份术语表并没有100%包含所有的术语,如果你认为有任何遗漏之处,请告之我们. A 聚合(Aggregation) – 搜索.合并.显示数据的过程 算法(Algorithms) – 可以完成某种数据分析的数学公式 分析法(Analytics) – 用于发现数据的内在涵义 异常检测(Anomaly detection) – 在数

每个人都应该知道的25个大数据术语

如果你初来乍到,大数据看起来很吓人!根据你掌握的基本理论,让我们专注于一些关键术语以此给你的约会对象.老板.家人或者任何一个人带来深刻的印象. 让我们开始吧: 1.算法."算法"如何与大数据相关?即使算法是一个通用术语,但大数据分析使其在当代更受青睐和流行. 2.分析.年末你可能会收到一份来自信用卡公司寄来的包含了全年所有交易记录的年终报表.如果你有兴趣进一步分析自己在食物.衣服.娱乐等方面具体花费占比呢?那你便是在做"分析"了.你正从一堆原始数据中来吸取经验,以帮

阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171122)

  概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速.完全托管的TB/PB级数据仓库解决方案.MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全.本文收录了大量的MaxCompute产品介绍.技术介绍,帮助您快速了解MaxCompute/ODPS. MaxCompute 2.0:阿里巴巴的大数

大数据阿里云产品的简单介绍理解

   很多人问,大数据是什么.一个时尚的技术名词,一个互联网时代的标志.给人高端大气上档次的感觉,很多公司不说自己有大数据都不好意思跟别人谈业务.那我就谈谈我的一些看法来结合阿里云的数加大数据产品比较粗俗的介绍下大数据到底是什么.    首先,从字面意思"大数据",那可以感受到,数据量要大,这是一个必须的条件.举一个例子,比方说我要根据一些销售数据做一个报表给老板看,那么几千条数据甚至几万条,我用excel可以很方便的做出来,数据可以保存在自己电脑上.那么,当数据几十万到几百万,exc

“大数据”由技术圈走向主流市场

海量数据和智能软件算法的结合为企业捕捉新商机提供了可能.(TechWeb配图) 北京时间8月12日消息,据国外媒体报道,今年是大数据(Big Data)发展史上一个重要年份,由技术圈进入了主流市场. 大数据是瑞士达沃斯世界经济论坛上一个重要主题,与会者发布了题为<大数据,大影响>(Big Data, Big Impact).3月份,美国联邦政府公布了一项耗资2亿美元的大数据计算研究计划. <纽约时报>在文章标题中也采用了"Big Data"这一术语,例如&quo

【大数据100分】CESI吴东亚:大数据标准及应用(高级教程)

[大数据100分]CESI吴东亚:大数据标准及应用[大数据高级教程] 主讲嘉宾:吴东亚 主持人:中关村大数据产业联盟 副秘书长陈新河 承办:中关村大数据产业联盟 吴东亚,中国电子技术标准化研究院信息技术研究中心标准总监.1972年生,籍贯黑龙江.1992年毕业于东南大学自动控制系毕业,1992-2001年,在中国空间技术研究院硕士学习.工作,参加"神舟一号"飞船地面测试系统研制工作,积累了一线科研和工程经验.2001-2004年,北京理工大学博士学习.2004至今,中国电子技术标准化研

企业CIO解决大数据挑战 先回答三个问题

当今,大数据的到来,已经成为现实生活中无法逃避的挑战.每当我们要做出决策的时候,大数据就无处不在.大数据术语广泛地出现也使得人们渐渐明白了它的重要性.大数据渐渐向人们展现了它为学术.工业和政府带来的巨大机遇.与此同时,大数据也向参与的各方提出了巨大的挑战,首先是三个重要的技术问题: 一.如何利用信息技术等手段处理非结构化和半结构化数据 大数据中,结构化数据只占15%左右,其余的85%都是非结构化的数据,它们大量存在于社交网络.互联网和电子商务等领域.另一方面,也许有90%的数据来自开源数据,其余

开源大数据周刊-第60期

资讯 Apache Spark 2.2.0正式发布 Spark 2.2.0 持续了半年的开发,近期发布了2.2.0版本,此版本是 2.x 版本线的第三个版本.在这个版本 Structured Streaming 的实验性标记(experimental tag)已经被移除,这也意味着后面的 2.2.x 之后就可以放心在线上使用了.除此之外,这个版本的主要集中点是系统的可用性和稳定性.关于 Apache Spark 2.2.0 的详细新功能介绍请参见文章 <网络安全法>实施一个月,大数据创业进入迷

7个因素决定大数据的复杂性

我们谈论了很多关于复杂数据及其为你的商业智能带来的挑战和机遇,但是导致数据复杂化的是什么呢? 以及你如何区分你的公司当前的数据是否是"复杂的",亦或不久的将来会变得复杂?本文将解决这些问题. 为什么这很重要? 当你试图将数据转化为商业价值时,它的复杂度很可能会预示你将面对的困难程度--复杂数据的准备和分析通常要比简单数据更加困难,以及通常需要一组不同的BI 工具来实现.复杂数据在可以"成熟的"分析和可视化之前需要额外的准备工作和数据模型.因此重要的是,通过了解您目前