《Web安全之机器学习入门》一 3.1 机器学习基本概念

3.1 机器学习基本概念

1.有监督学习:对具有概念标记(分类)的训练样本进行学习,以便尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的歧义性低。
2.无监督学习:对没有概念标记(分类)的训练样本进行学习,以便发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的歧义性高。聚类就是典型的无监督学习。
3.准确率与召回率:信息检索、分类、识别、翻译等领域中有两个最基本指标:召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率。
对一个二分问题来说,会出现四种情况。如果一个实例是实际为真并且也被预测成真,即为真正类(True positive,TP),如果实际为假被预测成真,称之为假正类(False positive,FP)。相应地,如果实际为假被预测成假,称之为真负类(True negative,TN),实际为真被预测成假则为假负类(false negative,FN)。
召回率和准确率的关系如表3-1所示。

召回率=TP/(TP+FN)
准确率=TP/(TP+FP)
用一个吃货都可以理解的例子来解释这两个枯燥的概念:一个池塘有10条鱼和20只小龙虾,渔夫撒网打鱼,结果捞上来8条鱼12只小龙虾,那么准确率为8/(8+12)=40%,召回率为8/10=80%。

时间: 2024-09-14 20:38:20

《Web安全之机器学习入门》一 3.1 机器学习基本概念的相关文章

《Web安全之机器学习入门》一 导读

前 言 近几年,人工智能无疑成为人们口中的热点话题,先是谷歌的AlphaGo,后有百度的度秘.无人车,微软必应搜索推出的小冰.这一系列人工智能产品的推陈出新,令人眼花缭乱,一时间给人的感觉是人工智能遍地开花.无论人们接受还是不接受,人工智能都在迅速渗透各行各业.网络安全相比之下是一个传统行业,基于规则以及黑白名单的检测技术已经发展到了一定的瓶颈,而利益驱动的黑产团伙,其技术的发展已经远远超乎我们的想象.如何借助人工智能的力量,提升安全行业的整体检测与防护能力,成为各大安全厂商研究的课题.在国内安

关于机器学习算法 你需要了解的东西(机器学习入门第二篇)

我们上次已经讨论了机器学习能够影响的业务类型.参见:机器学习能为你的业务做什么?(机器学习入门系列第一篇) 现在,让我们来回顾一下你需要了解的技术术语,这样你才能高效地与数据科学团队进行合作,并协助他们,让他们的工作成果可以对你的业务产生尽可能大的影响(或至少让你知道他们在说什么). 算法.模型和数据 从概念层面上来讲,我们正在构建一个机器,给这个机器一组输入数据,然后通过找到数据中的模式并从中学习,能够产生某种预期的输出. 一种非常常见的情况就是让机器在一组输入数据中查找,然后产生相对应的输出

【阿里云大学课程】机器学习入门:概念原理及常用算法

AlaphaGo与围棋界的较量,吸引了全世界的目光,也让大家见识到了机器学习与人工智能技术的强大之处.你是不是也想学机器学习了? 机器学习是人工智能的一个分支.人工智能的研究是从以"推理"为重点到以"知识"为重点,再到以"学习"为重点,一条自然.清晰的脉络.显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题. 在维基百科中,机器学习有下面几种定义: 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如

周志华撰文介绍机器学习两大派别;机器学习中常用激活函数的总结与比较 | AI开发者日报

周志华:机器学习有这两大派别,新人入门别跟错队 机器学习作为近年来非常火的一个概念,关注者追随者甚众,然而它的渊源及由来却鲜有人知晓.南京大学的周志华教授在近期的 AIDL2<机器学习前沿>会议上分享介绍了机器学习的两大派别,以及入门需要注意的一些要点.雷锋网整理如下: 详情:http://www.leiphone.com/news/201702/z1aKZcHhkdKtQFoa.html CitizenNet博客:商业系统中的随机森林算法,集合和性能指标 本文由CitizenNet的首席科学

MongoDB快速入门笔记(二)之MongoDB的概念及简单操作_MongoDB

MongoDB是面向集合的文档式数据库,不像关系数据库那样,有表,列.行,mongoDB数据库则是由一系列的文档组成.下面给大家介绍MongoDB的概念及简单操作. 1.以下列举普通的关系型数据库和MongoDB数据库简单概念上的区别: 2.MongoDB的简单操作 (1)启动MongoDB数据库之后,使用命令mongo,显示如下,默认连接到test数据库. MongoDB shell version: 3.2.6 connecting to: test 使用命令show dbs,可以查看所有的

《实用机器学习》——1.2 机器学习算法的分类

1.2 机器学习算法的分类 在机器学习中,常用的算法可以分为监督型学习(supervised learning)和非监督型学习(unsupervised learning)①. 在监督型学习中,除了输入数据x外,我们还知道对应的输出y.我们的目标是构建一个函数f(x),使得f(x)能够预测输出y.在非监督型学习中,我们只有输入数据x,没有对应的输出y.我们的目标是从数据中学习数据本身存在的模式(pattern).例如,聚类分析(cluster analysis)就是一个非监督型学习的典型例子,它

《Web安全之机器学习入门》一 3.2 数据集

3.2 数据集 数据集合和算法就像黄油和面包一样缺一不可,很多时候数据比算法还要重要.本书的例子涉及的数据主要来自多年搜集的开源数据集合以及部分脱敏的测试数据. 3.2.1 KDD 99数据 KDD是知识发现与数据挖掘(Knowledge Discovery and Data Mining)的简称,KDD CUP是由ACM组织的年度竞赛如图3-1所示.KDD 99 数据集就是KDD竞赛在1999年举行时采用的数据集. 1998年美国国防部高级研究计划局(DARPA)在MIT林肯实验室进行了一个入

《Web安全之机器学习入门》一 3.5 本章小结

3.5 本章小结 本章在一定程度上科普了机器学习的常见概念,并介绍了后面章节将频繁使用的一些知名数据集,我们在后面章节将频繁和这些数据打交道.本章并没有详细讲解各种概念的定义,如果对机器学习的基本概念还是很模糊,也没有关系,通过后面章节的学习,我们会不断加深对这些概念的理解. 参考资源 我写作本章时参考了以下网站,读者要想进一步学习,欢迎到这些网站进一步了解更多信息: http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html http://b

《Web安全之机器学习入门》一 3.3 特征提取

3.3 特征提取 机器学习中,特征提取被认为是个体力活,有人形象地称为"特征工程",可见其工作量之大.特征提取中数字型和文本型特征的提取最为常见. 3.3.1 数字型特征提取 数字型特征可以直接作为特征,但是对于一个多维的特征,某一个特征的取值范围特别大,很可能导致其他特征对结果的影响被忽略,这时候我们需要对数字型特征进行预处理,常见的预处理方式有以下几种. 1.标准化: >>> from sklearn import preprocessing >>&g

《Web安全之机器学习入门》一 2.2 TensorFlow简介与环境搭建

2.2 TensorFlow简介与环境搭建 TensorFlow是一个采用数据流图.用于数值计算的开源软件库(见图2-5).节点在图中表示数学操作,图中的线则表示在节点间相互联系的多维数据数组,即张量.它灵活的架构使你可以在多种平台上展开计算,例如台式计算机中的一个或多个CPU(或GPU). 服务器.移动设备等等.TensorFlow 最初由Google大脑小组(隶属于Google机器智能研究机构)的研究员和工程师们开发出来,用于机器学习和深度神经网络方面的研究,但这个系统的通用性使其也可广泛用