利用算法识别车厘子与樱桃


  车厘子是樱桃吗?它们有区别是什么呢?通过在水果市场采集,获得了一些关于车厘子和樱桃的相关特征数据。

  通过现有的车厘子和樱桃的数据,在包含车厘子和樱桃的混合水果中,随机给一个车厘子或者樱桃,识别它是樱桃或者车厘子的可能性哪个大? 本文我们将用朴素贝叶斯(Naive Beyesian)来解决这个问题,但在开始之前我们来简单了解下一些相关知识。

贝叶斯定理

  朴素贝叶斯是以贝叶斯定理为基础的概率分类模型。贝叶斯定理是概率论中的一个定理,它跟随机变量的条件概率及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理能够告知我们如何利用新证据修改已有的看法。这个名称来自于托马斯·贝叶斯。
  通常,事件A在事件B(发生)的条件下的概率与事件B在事件A的条件下的概率是不一样的;然而,这两者有着确定的关系,贝叶斯定理就是对这种关系的表示。贝叶斯公式定义在事件B出现的前提下,事件A出现的概率等于事件A出现的前提下事件B发生的概率乘以时间A出现的概率再除以时间B出现的概率。通过联系事件A与事件B,计算从一个事件产生另一事件的概率,即从结果上溯原。因此,贝叶斯定理公式如下所示:

  在理解贝叶斯定理的基础上,可以较好地理解基于朴素贝叶斯的分类模型。信息分类是信息处理中最基本的模块,每一段信息无论长或短,都由若干特征组成,因此可以将所有特征视为一个向量集W=(w1,w2,w3,…,wn),其中wi即表示其中第i个特征。而信息的分类也可以视为一个分类标记的集合C={c1,c2,c3,…,cm}。在进行特征学习之前,特征wi与分类标记cj的关系不是确定值,因此需要提前计算P(C|W),也就是在特征wi出现的情况下,信息属于分类标记C的概率,可根据贝叶斯计算,公式如下:

  因此,可以从信息分类的角度理解贝叶斯公式,即表示为:在特征wi出现的情况下是否是特征类别cj取决于在特征分类标记cj情况下特征wi出现的概率以及wi在所有特征中出现的概率。P(W)的意义在于如果这个特征在所有信息中出现,那么用特征wi去判定是否属于分类标识cj的概率越低,越不具备代表性。

车厘子与樱桃问题的解决

  朴素贝叶斯是一种有监督的学习方式,可以利用伯努利模型(Bernoulli Model)以文件为粒度进行文本分类。
(有监督学习是有监督分类的实质,有监督分类是指根据已有的训练集提供的样本,通过不断计算,从样本中学习选择特征参数,对分类器建立判别函数以对被识别的样本进行分类。有监督分类方式可以有效利用先验数据,对后验数据进行校验,但是缺点也比较明显。首先,训练数据是人为收集,具有一定的主观性,并且人为收集数据也会导致花费一定的人力成本;其次,最终分类器分类的结果中,分类结果只可能是训练数据中的分类类型,不会产生新的类型。)
假设训练集样本的特征满足高斯分布,得到下表。

  我们认为两种类别是等概率的,也就是P(车厘子)=P(樱桃)=0.5。概率密度函数如下:

  验证过程先给出一个待确定属于车厘子还是樱桃的测试样本,见下表。

  验证的标准则是:得到的样本属于樱桃还是车厘子的后验概率大者。

  上述式子用于求取车厘子的后验概率,

  上式用于求取樱桃的后验概率。证据因子evidence(通常是常数)用来对各类的后验概率之和进行归一化。

  证据因子是一个常数(在高斯分布中通常是一个常数),所以可以忽略,只需计算后验概率式子中的分子即可。接下来通过样本的特征值来判别样本所属的类别。

  其中,μ=0.8,α=0.018257419,二者均为训练集样本的高斯分布参数。注意,这里计算的是概率密度而不是概率。

  通过上述计算可以看出,车厘子的后验概率分子较大,由此可以预计这个样本属于车厘子的可能性较大。
  本文选自《大数据时代的算法:机器学习、人工智能及其典型实例》,点此链接可在博文视点官网查看此书。
                     
  想及时获得更多精彩文章,可在微信中搜索“博文视点”或者扫描下方二维码并关注。
                       
  

时间: 2024-10-26 10:31:56

利用算法识别车厘子与樱桃的相关文章

深度丨吴恩达团队最新论文:用CNN算法识别肺炎影像,准确率超过人类医生

吴恩达团队又有新动态!北京时间11月16日,吴恩达连发两条推文,称"放射科医生应该担心他们会丢掉工作了!最新突破--利用胸部X光片,我们可以用深度学习方法诊断肺炎,在这点上,算法做得比人类医生好.论文已发布在arXiv上." 关注大数据文摘微信公众号,在后台对话框内回复"肺炎",即可下载这篇论文拜读啦! 论文中用到了CheXNet算法,它可以诊断14种病症,在肺炎诊断方面,比放射科专家单独诊断的准确率更高. 图:放射科医生Matthew Lungren(左)与研究生

photoshop利用内容识别清除多余的杂物和路人教程分享

给各位photoshop软件的使用者们来详细的解析分享一下利用内容识别清除多余的杂物和路人的教程. 教程分享: 内容识别工具简单实例,对清除复杂背景的杂物也能轻松一键解决.   01开启照片,找到要移除的杂物或路人.   02工具箱选择 多边形套索工具,大致沿边圈选起来.   03选单选择[编辑 - 填充] ,使用内容感知(内容感知就是内容识别,翻译不同).   04按CTRL+D取消选取区,东西不见了.   ●要移除的人.物,他的背景必须是连续的,否则你会得到很奇怪的结果.   最终结果  

利用算法保持各个气球间的间隔距离,确保其不存在覆盖盲区

Google的Project Loon旨在利用飘飞在平流层的热气球为偏远地区提供高速而稳定的无线网路,并利用算法保持各个气球间的间隔距离,确保其不存在覆盖盲区.这听上去或许有点科幻,不过今天Google宣布,Project Loon将和各地运营商服务,利用运营商的频谱为偏远地区提供无线网络,这让Project Loon离现实又近了一步. 事实上,Google X项目的负责人Astro Teller本来准备专门为Project Loon从大公司手中买一个频谱,然而Larry Page反对这样做,认

Photoshop利用内容识别快速去除水印不留痕教程

给各位Photoshop软件的使用者们来详细的解析分享一下利用内容识别快速去除水印不留痕的教程. 教程分享:   步骤 打开素材图片去除左上角文字   用多边形套索工具画出需要去除的水印范围   执行-编辑-填充   选择填充里面的内容识别,确定   查看结果   取消选区,添加任意喜欢内容,保存   好了,以上的信息就是小编给各位Photoshop的这一款软件的使用者们带来的详细的利用内容识别快速去除水印不留痕的教程解析分享的全部内容了,各位看到这里的使用者们小编相信大家先在那是非常的清楚了制

利用k-means聚类算法识别图片主色调

识别图片主色调这个,网上貌似有几种方法,不过,最准确,最优雅的解决方案还是利用聚类算法来做... 直接上代码....不过,我测试结果表示,用PHP来做,效率不佳,PHP不适合做这种大规模运算~~~,用nodejs做 效率可以高出100倍左右...  代码如下 复制代码 <?php  $start = microtime(TRUE);  main();    function main($img = 'colors_files/T1OX3eXldXXXcqfYM._111424.jpg')  { 

用算法识别你是否喝醉

酒精是一个很有趣的东西,除了有些时候会让你做傻事.即使没有做任何尴尬的事它也会让我们脸红.事实证明,你那红润的脸颊有可能会出卖你.使用红外摄像机,科学家们利用计算机算法来识别醉酒人脸部的潮红. 在喝了一杯红酒或加了冰块的威士忌之后,酒精会使你的血管放松然后扩大,使你的血管更加接近皮肤,让你的脸变热变红.如果你缺少帮助酒精代谢的醛脱氢酶,这种潮红会加剧. 为了试验电脑是否能识别出醉酒的人,来自希腊的研究人员找到了41名喝醉酒的自愿者,并且收集了他们喝酒前和喝了4杯酒后的热影像照片.虽然不同人喝了这

百度开始支持支持canonical标签 通过算法识别规范网页

        站长网(www.admin5.com/)1月8日消息,今日百度站长平台发布公告,宣布百度开始支持Canonical标签.为了避免重复内容的收录,百度会通过算法对网页内容及链接进行识别,对内容完全相同或者高度相似的网页,会计算出一个系统认为规范的网页结果建立索引并供用户查询.站长可以通过将 <link> 元素和 rel="canonical" 属性添加到该网页非规范版本的<head> 部分,为搜索引擎指定规范网页. 公告如下: 一.Canonica

智能家居倾向利用生物识别解决安全问题

近日,受英特尔安全(Intel-Security)委托,美国市场研究机构最新研究报告指出四成消费者认为在智能家居生态系统中采用传统密码并非良策,而更倾向于基于生物识别的安全解决方案.调查结果显示54%的人倾向于指纹解锁,46%的人倾向于语音识别还有42%的人倾向于虹膜解锁. 该机构对美国.英国.法国.德国.巴西.印度.加拿大.澳大利亚和墨西哥9个城市的9000名用户进行了问卷调查,77%的调查者都期望在2025年之前智能家居像现在的智能手机一样变得这么普通常见. 而在安全方面,92%的受调查者预

教你如何利用算法原理,让TA对你一见钟情

Tinder主打"看脸配对",操作非常简单,如果对TA感兴趣,可以将照片向右滑动,代表喜欢:如果对TA不感兴趣,可以将照片向左滑动,让其消失.一旦双方都标记为了"喜欢",就可以彼此发起对话. 鸡年过半,对象还没搞定?好消息,经过无数个昼夜的冥思苦想,我们已经找到Tinder配对算法的工作原理了!这个复杂的算法耗费了我们两个多月时间. Tinder配对算法是通过投票.打分和发消息这几种因素驱动的.Tinder配对算法会让你与对你感兴趣的人(通过右滑手机屏幕实现)配对.