数据科学:以信息为载体的精确体系

引言:数据科学存在于生产和生活的各个方面,贯穿于人类社会发展的始终。数据科学作为科学,首先应该满足科学的基本定义。在此基础上,数据科学兼具数据本身的一些特性。
本文内容整理自《数据科学家养成手册》认知篇。

  数据科学是一个巨大而抽象的概念,要想清晰地认识这样一个概念,就需要对其进行拆解。

什么是科学

  科学是一种泛指的领域,包括数据科学、计算机科学、社会科学、经济科学、语言科学、生物科学等都是小、窄而深的认知领域,这些领域的科学有各自的体系、规范及认知特性。科学,不管是某个领域的科学,还是泛指的科学认知体系,都有最基本的要求——精确性和体系性。

精确性

  太阳东升西落,四季夏热冬冷,这种事情不足为奇。通过观察星辰运动,得出这些天体都在围绕地球转动(至少看上去是这样)的结论,也不值得称道。而能够把这一切通过量化的(尤其是精确量化的)描述进行阐释和计算的人,确实比常人的观察层面更广、更深。这种精确描述的过程与状态的现实指导意义远比从大方向上指出一个性质要大。

体系性

  体系性就是指“自圆其说”的框架。所谓“自圆其说”的概念是指一种科学理论要有完整的对象定义,以及对象之间的换算与转化的条件和量化值的确切关系,通常表现为各种各样的计算公式或者统计概率的确切描述。而且,这一切有一个前提——需要“可应验”,严格地说是“高度应验”才行。体系框架的成立会形成一个封闭的讨论边界。在讨论边界内部的所有观察对象都会以各种量化结果呈现在换算公式的因子里,它的完整性会直接支持体系本身,并支持所有在该体系下进行的性状判断与预测。

从信息到数据

  数据无处不在。在网络上、报纸上、书籍上,在家用电脑的磁盘上,在我们的脑海里,数据大量且广泛地存在。围绕数据,人类已经做了很多数据科学的研究和应用工作,其中最为基础的就是数据的存储和传输。数据的价值在于数据上所承载的信息,信息的价值在于其消除不确定性时的成本及其直接和间接的作用,而这一系列的价值使得我们对数据的价值予以空前的重视,这就是我们热衷于研究数据科学的原因所在。
  数据作为信息的载体,通过在介质上的落地和传输,以及数据之间体系性的计算,给人类带来了“消除不确定性,降低试错成本”的巨大利益。
  著名信息学家克劳德·艾尔伍德·香农(Claude Elwood Shannon)曾经在1948年于《贝尔系统技术期刊》上发表论文《通信的数学理论》(A Mathematical Theory of Communication),其中有一段描述大意是“信息是用来消除随机不确定性的东西”。香农在这篇论文中不仅给出了信息的含义,还给出了信息量计算的公式,也就是信息学相关专业最为常用的公式之一 —— 信息熵公式。
                    
  其中,P(xi ) 代表消息 xi 产生的概率。
  数据作为介质承载信息的形式,实际上是一种将信息抽象后的符号表示。所以,究其本质,不论是磁带上的语音数据,唱片上的音乐数据,磁盘上的文件数据,还是纸张上的文字数据,都具有如下特性。

  1. 作用:承载信息,消除不确定性。
  2. 形式:抽象过的符号记录。
  3. 定义:符号的含义经过约定,不会或至少不易产生二义性。

信息的流传需要通过存储介质实现持久化。现在我们一提到存储,通常都会想到计算机硬盘,包括传统的机械硬盘及技术越来越成熟的固态硬盘(SSD硬盘)等。
  众所周知,目前的电子计算机使用的计算与存储介质都是二进制的。这不是偶然的结果,而是由电子计算机的实现原理造成的。在ENIAC的设计过程中,冯·诺依曼(John von Neumann)根据半导体电子元件的二稳态特性,将计算机的计算逻辑设计为二进制方式(即只有“0”和“1”两种状态),在电子管上体现出来的特性就是“截止”和“导通”。而人类喜欢使用十进制也主要是因为人有10根手指,在日常生活中用十进制进行计算最为便利。
                      
                           电子管
                           
  在计算过程中,计算机将“与门”、“或门”、“与非门”、“或非门”等逻辑元件组合在一起,模拟计算进位的过程,进而形成完整的计算实现单元。用电子计算机实现的任何一种运算都是由这些逻辑门组合而成的,而这之后在电子计算机领域不断进行的技术改进都是基于同样的原理。尽管元件的体积越来越小,集成的程度越来越高,计算的速度越来越快,但从计算逻辑和实现的数学层面来说,其原理没有本质的变化。
                      
                           逻辑门
 
  在硬盘技术方面也同样不断进行着量变的积累。无论盘片容量是500GB还是1TB甚至更高,都是通过磁头机械臂在盘片上滑动的同时高速转动盘片来实现磁性材料持久化和材料状态感应。计算中使用的“0”和“1”,就可以通过这种持久化以磁介质疏密(磁通量的高低)写入磁性材料层。

                       机械硬盘及其读写原理

  展望未来,量子计算机和光子计算机的研发已经展开。这些新型计算机尽管实现原理不同,但只要成本足够低,而且与目前的电子计算机采用相同的工业标准,使双方在存储介质、信息传输等多个方面能够毫无障碍地互联互通,其未来就非常值得期待。
                   
                     加拿大D-WAVE公司的量子计算机

  信息经过抽象、建模,落实到介质上成为数据。数据与不同特性的介质结合,在各种介质上落地的形式也不完全一样,而这种结合通常是数据去迎合介质的特性。有意义的数据落在介质上,才能形成可以传递的信息,这就是信息产业赖以生存的基础。

数据科学的本质

  在了解科学和数据的定义后,我们基本可以给数据科学下一个完整的定义了——数据科学是一种研究信息感知、抽象、保存、建模、传输,以及数据之间的逻辑、数量统计、计算和转化关系的综合应用科学。数据科学的本质就是表述和指导对事物认知的关系量化,把普适性的科学思维方式应用到数据上,使其成为一门窄而深的、精确的、拥有完整体系的学科。这就是数据科学要解决的本质问题。
  如果尝试对数据科学这个庞大的体系进行细分,可以分成很多专注于数据某一方面处理的专项学科。例如,数据贮存学研究数据存储中的数据体积、存取效率、可靠性问题等,数据传输学研究传输速度、传输质量问题等。在这两个大的领域中,所有可能影响数据存储和传输的因素都会被讨论和研究,计算机硬件制造、光电信号传输、数据有损/无损压缩、数据冗余与高可用、数据校验等都是研究的对象。
  此外,还有研究如何在数据中进行信息抽象、计算、查找、分析等诸多度量与换算问题的数据算法学,以及其他一切能够对数据的感知、抽象、保存、建模、传输,甚至是数据的可视化、数据之间的辩证逻辑提供支持的学科等。其他分类同样会由于产业分化的需要而随时产生。这种平衡中的变化不断发生,一些小的分支和分类也会由于科研工作者潜移默化的努力而逐渐融合为一个大的分支。这些方式同样是仁者见仁,智者见智,不一而足。
  本文内容整理自《数据科学家养成手册》认知篇,点此链接可在博文视点官网查看此书。
                     
  想及时获得更多精彩文章,可在微信中搜索“博文视点”或者扫描下方二维码并关注。
                       

时间: 2024-11-02 00:01:34

数据科学:以信息为载体的精确体系的相关文章

从大数据向大信息升华,亟待统计科学与数据科学的革新

大科学工程,是以工程方式.计划手段.汇聚科技资源与力量整体推进重大科技计划的最新范式,是科学研究由传统的"手工小作坊"向现代大规模"工场"演进的一次革命.大科学范式的"兵团作战",将以空域和领域维度上的大规模,甚至超越时域维度上的长尺度,实现今朝一日.史上数年的突破. 大科学是大数据的摇篮,大数据是大科学的产物 大科学的王者之道始于大数据的产生.人类历史上的大数据,源于科技领域,确切地说源于大科学研究.曼哈顿计划打开了微观世界,并开创了借用人造的

研究了数千个在线课程,我整理了一份数据科学入门课清单

一年前,我退出了加拿大最好的计算机科学项目之一,利用在线资源开始创建属于自己的数据科学硕士课程.我意识到我可以通过edX, Coursera,以及Udacity学习我所需要的一切,而且学的更快.效率更高,学费更低. 数据可视化:Alanah Ryding 现在我差不多快要完成了.我上了很多数据科学相关的课程,旁听过更多课程的部分内容.我知道对于一个准备成为数据分析师或数据科学家的初学者来说有哪些选择,以及什么样的技能是必需的.几个月前,我开始创建一个用评价驱动的指南,用来为数据科学中的每个主题推

数据科学 怎样进行大数据的入门级学习?

数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据. 但从狭义上来看,我认为数据科学就是解决三个问题: 1. data pre-processing;(数据预处理) 2. data interpretation:(数据解读) 3.data modeling and analysis.(数据建模与分析) 这也就是我们做数据工作的三个大步骤: 1.原始数据要经过一连串收集.提取.清洗.整理等等的预处理过程,才能形成高质量的数据:

什么是数据科学?如何把数据变成产品?

未来属于那些知道如何把数据变成产品的企业和个人. --麦克·罗克德斯(Mike Loukides) 据哈尔·瓦里安(Hal Varian)说,统计学家是下一个性感的工作.五年前,在<什么是Web 2.0>里蒂姆•奥莱利(Tim O'Reilly)说"数据是下一个Intel Inside".但是这句话到底是什么意思?为什么我们突然间开始关注统计学和数据? 在这篇文章里,我会检视数据科学的各个方面,技术.企业和独特技能集合. 互联网上充斥着"数据驱动的应用"

从原始数据到数据科学:使非结构化数据结构化,以推动产品开发

数据科学正在快速发展成所有行业开发人员和管理人员的关键技能,它看起 来也十分有趣.但是,它非常复杂,虽有许多工程和分析工具助力,却也难清楚掌握现在做得对不对,哪里是不是有陷阱.在本系列中,我们解释了如何发挥数据科学的作用,理解哪里需要它,哪里不需要它,以及如何令它为你产生价值,如何从先行者那里获得有用的经验. 这是"Getting A Handle On Data Science(理解数据科学)"系列文章中的一部分. 本文要点 从非结构化的机器日志到提供当前特定信息的高度结构化的数据分

2017年最流行的15个数据科学Python库

Python 近几年在数据科学行业获得了人们的极大青睐,各种资源也层出不穷.数据科学解决方案公司 ActiveWizards 近日根据他们自己的应用开发经验,总结了数据科学家和工程师将在 2017 年最常使用的 Python 库. 核心库 1)NumPy 地址:http://www.numpy.org 当使用 Python 开始处理科学任务时,不可避免地需要求助 Python 的 SciPy Stack,它是专门为 Python 中的科学计算而设计的软件的集合(不要与 SciPy 混淆,它只是这

数据科学工具包(万余字介绍几百种工具,经典收藏版!)

本文简介:数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具.挖掘分析处理工具.其它常见工具等几百种,几十个大类,部分网址.为数据科学教育和知识分享,提高数据科学人员素质. 数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学.概率模型.统计学.机器学习.数据仓库.可视化等.在实际应用中,数据科学包括数据的收集.清洗.分析.可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家.数据科学家有其独

大数据到底怎么学:数据科学概论与大数据学习误区

"数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知."-Will Cukierski,Head of Competitions & Data Scientist at Kaggle 最近不少网友向我咨询如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题.由于大数据技术涉及内容太庞杂,大数据应用领域广泛,而且各领域和方向采用的关键技术差异性也会较大,难以三言两语说清楚,本文从数据科学和大数据关键技术体系角度,来说

构建你的数据科学作品集:机器学习项目

数据科学公司在决定雇佣时越来越关注你在数据科学方面的作品集Portfolio.这其中的一个原因是,这样的作品集是判断某人的实际技能的最好的方法.好消息是构建这样的作品集完全要看你自己.只要你在这方面付出了努力,你一定可以取得让这些公司钦佩的作品集. 构建高质量的作品集的第一步就是知道需要什么技能.公司想要在数据科学方面拥有的.他们希望你能够运用的主要技能有: 沟通能力 协作能力 技术能力 数据推理能力 动机和主动性 任何好的作品集都由多个项目表现出来,其中每个都能够表现出以上一到两点.这是本系列