1.背景
今后博主会每周定时更新机器学习算法及其python的简单实现。今天学习的算法是KNN近邻算法。KNN算法是一个监督学习分类器类别的算法。
什么是监督学习,什么又是无监督学习呢。监督学习就是我们知道目标向量的情况下所使用的算法,无监督学习就是当我们不知道具体的目标变量的情况下所使用的。而监督学习又根据目标变量的类别(离散或连续)分为分类器算法和回归算法。
k-Nearest Neighbor。k是算法中的一个约束变量,整个算法的总体思想是比较简单的,就是将数据集的特征值看作是一个个向量。我们给程序一组特征值,假设有三组特征值,就可以看做是(x1,x2,x3)。系统原有的特征值就可以看做是一组组的(y1,y2,y3)向量。通过求两向量间的距离,我们找出前k个距离最短的y的特征值对。这些y值所对应的目标变量就是这个x特征值的分类。
公式:
2.python基础之numpy
numpy是python的一个数学计算库,主要是针对一些矩阵运算,这里我们会大量用到它。 介绍一下本章代码中用到的一些功能。
arry:是numpy自带的数组表示,比如本例中的4行2列数字可以这样输入
group=array([[9,400],[200,5],[100,77],[40,300]])
shape:显示(行,列)例:shape(group)=(4,2)
zeros:列出一个相同格式的空矩阵,例:zeros(group)=([[0,0],[0,0],[0,0],[0,0]])
tile函数位于python模块 numpy.lib.shape_base中,他的功能是重复某个数组。比如tile(A,n),功能是将数组A重复n次,构成一个新的数组
sum(axis=1)矩阵每一行向量相加
3.数据集
4.代码
代码分三个函数,分别是
更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/Programming/sjjg/
创建数据集:
createDataset
from __future__ import division from numpy import * import operator def createDataset(): group=array([[9,400],[200,5],[100,77],[40,300]]) labels=['1','2','3','1'] return group,labels
数据归一化:
autoNorm
def autoNorm(dataSet): minVals = dataSet.min(0) maxVals = dataSet.max(0) ranges = maxVals - minVals normDataSet = zeros(shape(dataSet)) m = dataSet.shape[0] normDataSet = dataSet - tile(minVals, (m,1)) #print normDataSet normDataSet = normDataSet/tile(ranges, (m,1)) #element wise divide # print normDataSet return normDataSet, ranges, minVals
以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索knn算法
, 算法
, 数组
, 非监督
, 机器学习
, 变量
, 学习
, dataset
, 图论 离散数学 算法
, knn 聚类 分类
, python学习
, numpy
, 算法实现
, 向量
knn
,以便于您获取更多的相关知识。