《伟大的计算原理》一信息和发现

信息和发现

当我们说计算机发现了新的模式时我们想说明什么呢?设想一个程序能够发现数据的趋势,首先提供一组在以往性能实验中观察到的输入输出对(x,y)给程序,然后利用统计回归,程序找到了最好的参数a和b表示一条直线来拟合这个数据:y = ax + b,程序的输出是直线的常规表达。这个输出对于了解如何利用直线进行预测的用户是有意义的。很容易设计另一个程序来使用具有参数a和b的直线来预测y,而y是由新的输入x生成的。
这就是一个设计师使用数学知识从一系列数据中计算最佳拟合参数的过程,计算中的步骤是机械的,输出对于那些了解数据中直线趋势模型的人们是有意义的。这些意义来源于设计师,而不是数据的处理。
对于不了解数据中直线模型趋势的人,也就不知道输出的含义。但是这并不意味着输出的含义是主观的,只意味着设计师没有打算让程序对这些用户产生任何意义。
在20世纪80年代,研究者开始使用强大的计算机筛选大数据集来试图发现一些模式。他们使用贝叶斯(Bayesian)推理(这是一个复杂的数据分析方法)来推算最有可能产生数据的一系列条件。贝叶斯推理基于贝叶斯条件概率统计公式:

它说明的是给定证据E,假设H的概率就是:给定假设H后该证据E的概率,乘以假设H的概率,再除以证据E的概率。图3.8给出了一个简单的示例,医生已知病人头疼,试图诊断他是否患有流感。
这种情况下的发现是一个新的假设。程序能够生成一系列假设,然后根据手中已知的情况,按照贝叶斯定律计算每一个假设的概率,把其中最有可能的假设作为这个“发现”。
在这种情况下,设计者结合贝叶斯定律和搜索方法,在给定数据下找到最大可能的假设。这个程序的输出就是那些明白假设和数据“含义”的用户所预期的,用户将决定是否将这些假设视作一个发现。

图3.8 韦恩图演示了如何利用贝叶斯定律评估一个很难判断的假设。在所有人口的集合K中包含一个子集F,代表患有流感的人,还有一个子集H,代表患有头疼的人。医生看到一个病人抱怨头疼,担心自己患上流感。根据贝叶斯定律P(F|H) = P(H|F)·P(F) / P(H)。医学数据告诉医生,患有头疼的概率P(H) = 0.4,患有流感的概率P(F) = 0.2,在患有流感的人中患有头疼的概率是P(H|F) = 2 / 3,因此P(F|H) = (2 / 3)·0.2 / 0.4 = 1 / 3,即三分之一。在没有任何信息的时候,患有流感的概率是0.2,但若已知患头疼,患有流感的概率则上升到0.33
在经典的信息论中,我们说贝叶斯推理发挥作用,是通过已知消息源的数据来决定消息源的内容。在消息通信中,香农合理假设消息源的内容为先验信息。在科学发现中,消息源中包含的一系列概率最初是未知的,推理过程使得消息和它们的概率可知。贝叶斯推理是一个自动将消息源中的观察数据转换为消息源内容的方法。

时间: 2024-07-30 13:26:51

《伟大的计算原理》一信息和发现的相关文章

《伟大的计算原理》一 第2章 Great Principles of Computing 计 算 领 域

第2章 Great Principles of Computing 计 算 领 域 生物学是一种信息科学. --David Baltimore 除了理论和实验之外,计算是进行科学研究的第三种方式. --Kenneth Wilson 科学与科学应用密不可分,如同一个树上结出的多枚果实. --Louis Pasteur 计算活动由人类实施,而不是基本原理.在长期的实践活动中,人们的计算活动逐渐形成了丰富多样的计算领域(computing domain).每一个计算领域主要关注一项技术或其应用.例如,

《伟大的计算原理》一第3章 Great Principles of Computing 信  息

    本节书摘来自华章出版社<伟大的计算原理>一书中的第3章,第3.1节,作者[美]彼得 J. 丹宁(Peter J. Denning)克雷格 H. 马特尔(Craig H. Martell),更多章节内容可以访问"华章计算机"公众号查看. 第3章 Great Principles of Computing 信 息 通信的内容语义与通信工程无关. --Claude E. Shannon 软件并不只是交互设备,更生成了一个用户生活空间. --Terry Winograd 自

《伟大的计算原理》一导读

前 言 就在70年前,除了少数专家之外,没有人听说过计算机.现在,计算机.软件和网络无处不在.在地球上的任何地方,它们都以更快的发展速度给我们的生活带来了各种各样的好处. 在这么短的几十年中,我们学会了设计和建造如此规模的系统,这真是一件令人吃惊的事.如今,通过支持大规模合作,计算技术使得知识工作能够自动化,同时也在不断扩大生产力.第二次机器革命正扑面而来1.这是如何实现的?是什么样的伟大思想使这一切成为可能? 计算机给我们带来好处的同时也带来忧虑.计算机带来的自动化是否会使很多工人失业?计算机

《伟大的计算原理》一第1章 Great Principles of Computing 作为科学的计算

   本节书摘来自华章出版社<伟大的计算原理>一书中的第1章,第1.1节,作者[美]彼得 J. 丹宁(Peter J. Denning)克雷格 H. 马特尔(Craig H. Martell),更多章节内容可以访问"华章计算机"公众号查看. 第1章 Great Principles of Computing 作为科学的计算 计算机科学研究计算机周边的各种现象. --Newell,Simon和Perlis 计算机之于计算机科学,正如望远镜之于天文学. --Edsger W.

《伟大的计算原理》一大数据

大数据 大数据是最近出现的另一个时髦概念,其背后隐藏了关于计算的丰富信息.大数据关注如何对互联网上的海量数据进行分析,从中发现有价值的统计规律和相关性等信息.这种分析可以广泛应用于各种领域,例如科学.工程.商业.人口普查.执法等. 计算机科学家对数据的存储.查询及处理已经进行了长时间的关注,而且很多关注的问题甚至比目前的技术进展还要超前.可惜的是,这些超前的想法由于各种因素的影响被埋没在历史的尘埃中,被大众所遗忘."大数据"这一术语在很大程度上是新瓶装旧酒,虽然这一术语确实对很多领域产

利用搜索引擎关键字正排计算原理进行深度伪原创

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 如何进行有效的文章伪原创这是个永远被关注和热谈的话题,市面上的那些所谓的伪原创工具,无非就是对文章中的同义词进行替换,或者对文章的段落进行打乱排序,甚至是几篇文章组合切割成若干篇文章.这些做法有没效,看完下面的文章你们就会有大概的认识,但有点可以肯定的是,这样处理后的文章简直就是垃圾,不会被用户所认同.竟然用户不认同的东西,搜索引擎会认同吗?

《伟大的计算原理》一第2章

第2章 Great Principles of Computing计 算 领 域生物学是一种信息科学.--David Baltimore除了理论和实验之外,计算是进行科学研究的第三种方式.--Kenneth Wilson科学与科学应用密不可分,如同一个树上结出的多枚果实.--Louis Pasteur计算活动由人类实施,而不是基本原理.在长期的实践活动中,人们的计算活动逐渐形成了丰富多样的计算领域(computing domain).每一个计算领域主要关注一项技术或其应用.例如,信息安全领域主要

代码-用Qt编写的计算重力传感器SMB380的x,y,z轴数据的计算原理的问题

问题描述 用Qt编写的计算重力传感器SMB380的x,y,z轴数据的计算原理的问题 用Qt做的重力传感器SMB380数据计算 ,有一行代码 result = -(9.8 * (float) (mode + 1)) * 2 * dat / 512.0; 不知道计算原理, mode = value_temp[3]; x_start = dToa(value_temp[0], mode); y_start = dToa(value_temp1, mode); z_start = dToa(value_

《伟大的计算原理》一信息的转换

信息的转换 一个单纯的通信系统只是简单地将信息从一处传输到另一处,但是计算机会做更多的工作,即转换信息.转换就带来了更多可能,其中最显著的产品就是新信息的出现.简单的转换包括将一个数平方.计算π至指定小数位数.对一列数字按照升序排列,每一次转换都是将一种信息模式作为输入,并创建一种信息模式作为输出.因为二进制模式可以被解析为数,所以一次转换在数学上看来就像是一个输入数到输出数的映射函数.能够被机器计算的函数被称为可计算函数.图灵和他同时代的人们用这个概念来定义计算.图灵表示一个简单的抽象计算机-