[机器学习]机器学习笔记整理12-线性回归概念理解

前提介绍：

为什么需要统计量？

统计量：描述数据特征
1. 集中趋势衡量

均值（平均数，平均值）（mean）
这里写图片描述
{6, 2, 9, 1, 2}
(6 + 2 + 9 + 1 + 2) / 5 = 20 / 5 = 4

中位数（median）:

将数据中的各个数值按照大小顺序排列，居于中间位置的变量
给数据排序：1， 2， 2， 6， 9
找出位置处于中间的变量：2
当n为基数的时候：直接取位置处于中间的变量
当n为偶数的时候，取中间两个量的平均值

众数（mode）：

数据中出现次数最多的数

离散程度衡量

方差（variance)

这里写图片描述
{6, 2, 9, 1, 2}
(1) (6 - 4)^2 + (2 - 4) ^2 + (9 - 4)^2 + (1 - 4)^2 + (2 - 4)^2
= 4 + 4 + 25 + 9 + 4
= 46
(2) n - 1 = 5 - 1 = 4
(3) 46 / 4 = 11.5

标准差 (standard deviation)

这里写图片描述

介绍：回归(regression) Y变量为连续数值型(continuous numerical variable)

        如：房价，人数，降雨量
 分类(Classification): Y变量为类别型(categorical variable)
        如：颜色类别，电脑品牌，有无信誉

简单线性回归(Simple Linear Regression)
2.1 很多做决定过过程通常是根据两个或者多个变量之间的关系
2.3 回归分析(regression analysis)用来建立方程模拟两个或者多个变量之间如何关联
2.4 被预测的变量叫做：因变量(dependent variable), y, 输出(output)
2.5 被用来进行预测的变量叫做：自变量(independent variable), x, 输入(input)
简单线性回归介绍
3.1 简单线性回归包含一个自变量(x)和一个因变量(y)
3.2 以上两个变量的关系用一条直线来模拟
3.3 如果包含两个以上的自变量，则称作多元回归分析(multiple regression)
简单线性回归模型
4.1 被用来描述因变量(y)和自变量(X)以及偏差(error)之间关系的方程叫做回归模型
4.2 简单线性回归的模型是:
简单线性回归方程
```
             E(y) = β0+β1x
```
这个方程对应的图像是一条直线，称作回归线
其中，β0是回归线的截距
β1是回归线的斜率
E(y)是在一个给定x值下y的期望值（均值）
正向线性关系：

这里写图片描述

负向线性关系：

这里写图片描述

无关系

这里写图片描述

估计的简单线性回归方程

ŷ=b0+b1x
这个方程叫做估计线性方程(estimated regression line)
其中，b0是估计线性方程的纵截距
b1是估计线性方程的斜率
ŷ是在自变量x等于一个给定值的时候，y的估计值
线性回归分析流程：

这里写图片描述

关于偏差ε的假定

11.1 是一个随机的变量，均值为0
11.2 ε的方差(variance)对于所有的自变量x是一样的
11.3 ε的值是独立的
11.4 ε满足正态分布

时间： 2024-12-25 10:26:48

[机器学习]机器学习笔记整理12-线性回归概念理解的相关文章

Deep Learning（深度学习）学习笔记整理系列之（七）

目录: 一.概述二.背景三.人脑视觉机理四.关于特征 4.1.特征表示的粒度 4.2.初级(浅层)特征表示 4.3.结构性特征表示 4.4.需要有多少个特征? 五.Deep Learning的基本思想六.浅层学习(Shallow Learning)和深度学习(Deep Learning) 七.Deep learning与Neural Network 八.Deep learning训练过程 8.1.传统神经网络的训练方法

Deep Learning（深度学习）学习笔记整理系列之（一）（转）

Deep Learning（深度学习）学习笔记整理系列之（二）

Deep Learning（深度学习）学习笔记整理系列之（八）

Deep Learning（深度学习）学习笔记整理系列之（五）

Java中jqGrid 学习笔记整理——进阶篇(二)_java

相关阅读: Java中jqGrid 学习笔记整理--进阶篇(一) 本篇开始正式与后台(java语言)进行数据交互,使用的平台为 JDK:java 1.8.0_71 myEclisp 2015 Stable 2.0 Apache Tomcat-8.0.30 Mysql 5.7 Navicat for mysql 11.2.5(mysql数据库管理工具) 一.数据库部分 1.创建数据库使用Navicat for mysql创建数据库(使用其他工具或直接使用命令行暂不介绍) 2. 2.创建表双击打

.NET编程和SQL Server ——Sql Server 与CLR集成（学习笔记整理-1）

原文:.NET编程和SQL Server --Sql Server 与CLR集成 (学习笔记整理-1) 一.SQL Server 为什么要与CLR集成 1. SQL Server 提供的存储过程.函数等十分有限,经常需要外部的代码来执行一些繁重的移植: 2.与CLR集成可将原本需要独立的程序来实现的功能迁移到SQL Server 内部进行数据操作: 3.T-SQL数据查询语言在返回数据集方面很好,但是除此之外表现不佳.与CLR的集成可解决这一问题: 4..NET的操作代码和执行的速度比T-SQL

Android菜鸟的成长笔记（12）——Handler、Loop、MessageQueue

原文:[置顶] Android菜鸟的成长笔记(12)--Handler.Loop.MessageQueue 当一个程序第一次启动时,Android会启动一条主线程(Main Thread),主线程主要负责处理与UI相关的事件,如按键事件.触屏事件.绘图事件,主线程也被称为UI线程. UI的操作只能是通过主线程来操作,为了解决多线程操作UI的问题,就用到了Handler类. 一.Handler类 Handler类的作用有两个: 1.在新启动的线程中发送消息. 2.在主线程中获取.处理消息. 例如:

JavaScript学习笔记整理_用于模式匹配的String方法_基础知识

用于模式匹配的String方法: String支持4种使用正则表达式的方法: seach()用于检索,参数是一个正则表达式,返回第一个与之匹配的子串的位置,找不到则返回-1,如果参数不是正则表达式,则首先会通过RexExp构造函数将它转换成正则表达式,seach()方法不支持全局搜索,它忽略修饰符g: replace()用于检索与替换操作,第一个参数是一个正则表达式,第二个参数是要进行替换的字符串.它对调用该方法的字符串检索,按照模式匹配子串替换成第二个参数,若包含修饰符g则全文匹配.若第一个参

IOS开发笔记整理49之详解定位CLLocation_IOS

在项目功能中有一个定位CLLocation的需求,遇到了一些知识难点,经过各位大侠的帮助,问题解决,特此分享供大家学习,希望大家共同学习进步. 一.简单说明 1.CLLocationManager CLLocationManager的常用操作和属性开始用户定位- (void)startUpdatingLocation; 停止用户定位- (void) stopUpdatingLocation; 说明:当调用了startUpdatingLocation方法后,就开始不断地定位用户的位置,中途会频繁