你不能不知道的14个大数据专业词汇

随着大数据技术的不断提高,大数据应用的不断普及,大数据与各行各业的关系越来越紧密。大数据行业充斥着大量的专业词汇,准确掌握和了解这些词汇的含义,有助于更好的理解大数据,更好地利用大数据技术。以下整理了以数据处理为中心的14个大数据专业词汇, 一起来看看吧~~~

大数据

本地数据库(LDB/Local Data Base)

本地数据库是指驻留于运行客户应用程序的机器的数据库。本地数据库位于本地磁盘或局域网。典型的本地数据库有Paradox、dBASE、FoxPro和ACCCSS。

数据采集(Data Acquisition,DAQ)

数据采集又称数据获取,将被测试对象的各种参量通过各种传感器做适当转换后,再经过信号调理、采样、量化、编码、传输等步骤传递到控制器的过程。

数据采集的一般步骤:①用传感器感受各种物理量,并把它们转换成电信号;②通过A/D转换,模拟量的数据转变成数字量的数据;③数据的记录,打印输出或存入磁盘文件。④生产厂商为该采集系统编制的专用程序,常用于大型专用系统;⑤固化的采集程序,常用于小型专用系统;⑥利用生产厂商提供的软件工具,用户自行编制的采集程序,主要用于组合式系统。

数据模型(data model)

数据模型是现实世界数据特征的抽象,用于描述一组数据的概念和定义。数据模型是数据库中数据的存储方式,是数据库系统的基础。在数据库中,数据的物理结构又称数据的存储结构,就是数据元素在计算机存储器中的表示及其配置;数据的逻辑结构则是指数据元素之间的逻辑关系,它是数据在用户或程序员面前的表现形式,数据的存储结构不一定与逻辑结构一致。

数据整理(Data Cleansing)

数据整理是对调查、观察、实验等研究活动中所搜集到的资料进行检验、归类编码和数字编码的过程,是数据统计分析的基础。

数据处理(Data Handling)

数据处理是指对数据(包括数值的和非数值的)进行分析和加工的技术过程。也就是对数据的采集、存储、检索、加工、变换和传输,将数据转换为信息的过程。

数据压缩(Data Compression)

数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少数据的存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。

数据恢复(Data Recovery)

数据恢复是指通过技术手段,将保存在台式机硬盘、笔记本硬盘、服务器硬盘、移动硬盘、U盘等等设备上由于各种原因导致损伤或丢失的数据进行抢救和恢复的技术。

数据集成(Data Integration)

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。数据集成维护了数据源整体上的数据一致性、提高信息共享利用的效率。

数据迁移(Data Migration)

数据迁移又称分级存储管理,是一种将离线存储与在线存储融合的技术。将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,将磁盘中常用的数据按指定策略自动迁移到磁带库等二级容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一级磁盘上。

数据冗余(Data Redundancy)

数据冗余是指同一个数据在系统中多次重复出现。消除数据冗余的目的是为了避免更新时可能出现的问题,以便保持数据的一致性。

数据抽取

数据抽取是指从源数据源系统抽取目的数据源系统需要的数据的过程。

网络数据抽取 (Web data mining)

网络数据抽取(Web data mining),是指从网络中取得大量的又利用价值的数字化信息。主要包括结构化数据抽取(Structured Data Extraction)、信息集成(Informationintegreation)和观点挖掘(Opinion mining)等。

结构化数据抽取的目标是从Web页面中抽取结构化数据。这些结构化数据往往存储在后台数据库中,由网页按一定格式承载着展示给用户。例如论坛列表页面、Blog页面、搜索引擎结果页面等。信息集成是针对结构化数据而言,其目标是将从不同网站中抽取出的数据统一化后集成入库。其关键问题是如何从不同网站的数据表中识别出意义相同的数据并统一存储。

数据标准化(data standardization)

数据标准化是指研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程。

数据备份(Data Backup)

数据备份是容灾的基础,为防着系统出现操作失误或系统故障导致数据丢失,而将全部或部分数据集合从原来存储的地方复制到其他地方的活动,将数据遭受破坏的程度减到最小。传统的数据备份主要采用内置或外置的磁带机进行冷备份。这种方式只能防止操作失误等人为故障,其恢复时间也很长。现代企业采用网络备份,通过专业的数据存储管理软件结合相应硬件和存储设备来实现备份。

1.完全备份(Full Backup)。优点是当发生数据丢失的灾难时,可以迅速恢复丢失的数据。不足之处是每天都对整个系统进行完全备份,造成备份的数据大量重复。

2.增量备份(Incremental Backup)。先实施一次完全备份,后续时间里只要对当天的或修改过的数据进行备份。优点:节省了磁盘空间,缩短了备份时间;缺点是数据恢复比较麻烦,备份的可靠性很差。

3.差分备份(Differential Backup)。先实施一次完全备份,再将当天所有与备份不同的数据(新的或修改过的)备份到磁盘上。该策略避免了以上两种策略缺陷的同时,具备其所有优点。首先,它无须每天都对系统做完全备份,所需的备份时间短,节省磁盘空间。其次,数据恢复方便。一旦发生问题,用户只需使用完全备份和发生问题前一天的备份就可以将系统恢复。

本文转自d1net(转载)

时间: 2024-11-03 18:46:57

你不能不知道的14个大数据专业词汇的相关文章

大数据时代你需要知道的7个大数据定义

文章讲的是大数据时代你需要知道的7个大数据定义,大数据究竟是什么?很多人可能仍然有些混淆,本文让我们来看看大数据的一些主要的定义.首先要注意的是,行业内的所有人都普遍认同,大数据不只是更多的数据. (1) 最初的大数据 大数据的特征可以用很多词来描述.2001年Doug Laney最先提出"3V"模型, 包括数量 (Volume).速度(Velocity)和种类(Variety).在那以后,业界很多人把3V扩展到了11V,还包括有效性.真实性.价值和可见性等. (2) 大数据:技术 为

增设大数据专业追上时代“风口”

日前,教育部公布了高校新增专业名单,有32所高校成为第二批成功申请"数据科学与大数据技术"本科新专业的高校.加上此前第一批成功申请该专业的北京大学.对外经济贸易大学和中南大学,已共有35所高校成功申请大数据专业. 大数据专业的产生背景,跟快速发展的互联网产业直接相关,正如报道中所言,"站在互联网风口上的大数据,直接催热了大学里的大数据专业".根据麦肯锡咨询公司出具的一份分析报告,预计到2018年,大数据或数据工作者的岗位需求将激增,其中大数据科学家的缺口在14万到1

未来大数据专业岗位需求和就业主要行业

随着云计算和大数据时代的到来,而与之相关的职业需求也呈爆发式增长,大数据职业的相关人才匮乏,人才缺口非常大.盖特纳咨询公司预测大数据将为全球带来440万个IT新岗位和上千万个非IT岗位.可以说,未来的大数据工作,就意味着高薪.稳定.广泛的职业使用度.优越感--与大数据相关的职位有很多,目前主要集中在系统研发工程师.应用开发工程师.数据可视化工程师和数据分析师这四个方面. 大数据专业岗位需求: (1)大数据系统研发工程师:负责大数据系统研发工作,包括大规模非结构化数据业务模型构建.大数据存储.数据

高招攻略 领英助你清晰解读大数据专业

至顶网CIO与应用频道 06月28日 北京消息:走下高考的竞技场,又走上高招的棋局,2017年的准大学生们正在做一道人生中至关重要的选择题--专业选择.目前经济结构升级和科学技术进步将大数据专业带入了高招领域,攀升为热门话题,到底是明日黄花,还是经久不衰?领英为你清晰解读大数据专业. 专业现状:火爆之下的求贤若渴 大数据这个词已经热门有近十年的时间,可毕竟我们已经见过太多大一入学时还是热门专业,待研究生毕业时却已经成为"传统专业"的故事,所谓"花无百日红"的魔咒会不

每个人都应该知道的25个大数据术语

如果你初来乍到,大数据看起来很吓人!根据你掌握的基本理论,让我们专注于一些关键术语以此给你的约会对象.老板.家人或者任何一个人带来深刻的印象. 让我们开始吧: 1.算法."算法"如何与大数据相关?即使算法是一个通用术语,但大数据分析使其在当代更受青睐和流行. 2.分析.年末你可能会收到一份来自信用卡公司寄来的包含了全年所有交易记录的年终报表.如果你有兴趣进一步分析自己在食物.衣服.娱乐等方面具体花费占比呢?那你便是在做"分析"了.你正从一堆原始数据中来吸取经验,以帮

14篇大数据培训类好文推荐!

阿里云数加大数据计算服务MaxCompute学习路线图 (持续更新中) [大数据学习]数据化运营并不难?关键是这些技术你get了么?! MaxCompute 学习计划(一) MaxCompute 学习计划(二) MaxCompute 学习计划(三) MaxCompute(原ODPS)开发入门指南--数据上云篇 MaxCompute(原ODPS)开发入门指南--计量计费篇 MaxCompute(原ODPS)开发入门指南--数据开发工具篇 <云数据·大计算:海量日志数据分析与应用>Workshop

除Hadoop外你还需要知道的9个大数据技术

Hadoop是大数据领域最流行的技术,但并非唯一.还有很多其他技术可用于解决大数据问题.除了Apache Hadoop外,另外9个大数据技术也是必须要了解的. Apache Flink Apache Samza Google Cloud Data Flow StreamSets Tensor Flow Apache NiFi Druid LinkedIn WhereHows Microsoft Cognitive Services Apache Flink:是一个高效.分布式.基于Java实现的

大数据热门词汇齐报到

可以说,大数据是如今IT行业最热门的趋势之一,它催生出了处理大数据的一批全新技术.而新技术带来了新的热门词汇:首字母缩略词.专业术语和产品名称等.连"大数据"这个短语本身都让人犯晕.许多人一听到"大数据",觉得是指"大量数据",而大数据的涵义绝不仅仅涉及数据量的多寡. 下面是我们认为你要熟悉的几个热门词汇,按字母顺序排列. ACID ACID的全称是原子性.一致性.隔离性和持久性,这其实是一组需求或属性:如果这四个方面都得到遵守,就能在处理过程中

浙财大新设省内首个“大数据”专业

在很多考生心中,首选是财经类大学.浙江财经大学知名度很高,自创办以来,学校为社会输送了10万余名毕业生,所培养的经管类毕业生人数列浙江省属高校前列,享有浙江财税系统的"黄埔军校"."会计师的摇篮"."金融人才的沃土"等美誉. 浙财大学生处处长.招办主任范建锋介绍,今年招生计划比去年略增,面向全国预计招生3556人.新增省内首个数据科学与大数据技术专业,该专业是依托于数学.统计学.计算机及其他具体实践领域的交叉学科,为国家新增专业,浙财大是浙江省第