【程序员眼中的统计学(9)】总体和样本的估计:进行预测

总体和样本的估计:进行预测

1样本均值描述

1.1样本均值的定义

样本均值是我们能为总体均值做出的最好估计。在我们根据现有信息得到的数值中,样本均值是最有可能被作为总体均值的数值。另外样本均值被称为总体均值的点估计量。也就是说,作为一个基于样本数据的计算结果,它给出了总体均值的良好估计。

1.2样本均值符号定义和公式

这张图显示了样本的分布情况以及可以基于样本而期望的总体分布情况。根据已知的情况,样本均值是我们能为总体均值做出的最好估计,所以在这我们把样本均值称为总体均值的点估计量。

符号(读作"缪")表示总体均值,为了不至于混淆,我们用(读作"X拔")表示样本的均值。是的样本对等量,它的计算方法如下:

而用û(读作"缪hat")表示总体均值的点估计量,根据上式写出总体的点估计量的简明表达式,由于可以用样本均值估计总体均值,因此:û =

1.3样本均值分布算法描述

类描述

类源码见源程序: predict.vo. SampleMean.java

方法描述

输入一个数组,返回样本均值

类和方法调用的接口

见源程序:predict.vo. SampleMean.java

SampleMean.java 下有方法:public double run(double[] s)

调用封装类:predict.utils.ScoreUtil.java

ScoreUtil.java下有方法: subZeroAndDot(String s)

package vo;
import utils.ScoreUtil;
/**
 * @(#)SampleMean.java
 * @Comments 样本均值
 * @description 样本均值是对总体均值的最好估计,另外样本均值被称为总体均值的点估计量。符号μ(读作“缪”)表示总体均值,
 * 所以我们用“X拔”表示样本的均值, 样本均值等于样本中所有数据之和除以样本的大小。
 * @author gyz
 * @date 2015-8-15
 * @since JDK1.8
 */
public class SampleMean{
    /**
    * @param s 输入一个数组:样本数据
    * @return sampleMean  返回样本均值
    * @date 2015-8-15
    * @author gyz
     */
    public  double run(double[] s) {
        double sum = 0.0;
        double sampleMean = 0.0;
        for(int i=0;i<s.length;i++){
            sum += s[i];
        }
        sampleMean = sum/s.length;
        //并将结果保留3位小数(四舍五入)
        String fx_String = ScoreUtil.getFractionDigits(sampleMean,3);
        sampleMean = Double.valueOf(fx_String);
        System.out.println("样本均值:"+sampleMean);
        return sampleMean ;
   }
}

1.4样本均值使用场景

当数据或事件数量十分庞大时,很难决定从何处着手收集数据,我们就可以有效地、正确地采用抽样收集数据。我们可以使用样本均值估计数据的总体均值。

1.5样本均值优缺点

1.5.1样本均值优点

可以样本数据的均值估计总体均值,可以由此得知总体方差的期望形态。

1.5.2. 样本均值缺点

通过样本均值估计总体均值不一定是非常正确的,也会存在一些误差,或者需要在进行一些验证等。

1.6 样本均值算法的输入数据

@param s 输入一个数组:样本数据

1.7样本均值算法的输出结果

@return sampleMean 返回样本均值

1.8样本均值算法异常和误差

1.8.1样本均值算法可能异常或误差

异常:输入数据不合法;

误差:保留小数位数造成不精确

1.8.2样本均值算法异常或误差处理

异常:解决,输入不合法给予提示。

误差:解决,进行小数点位数自定义保留封装,根据具体精度进行设置。

回到顶部

2估计总体方差的相关描述

2.1 估计总体方差的定义

     一个数据集的方差所量度的是数值与均值的偏离程度。当你选择一个样本后,相比总体,你拥有的数值数量变少了,因此,与总体的数值偏离均值的程度相比,样本中的数值更有可能以紧密的方式聚集在均值周围,也就是说,极端数值出现在样本中的可能性下降,这是因为总的来说这样的数值变小了。所以样本数据的方差可能不是总体方差的最好估计办法。我们需要找到一个更好的办法来估计总体方差,也就是说,找到样本数据的某个函数,而这个函数所得出的结果要稍微大于所有样本数值的方差。

2.2估计总体方差符号定义和公式

符号 表示总体方差,所以我们用一个略有变化的表示总体方差的点估计量,n为样本的大小,估计总体方差计算公式如下:

总体方差点估计量的式子通常写作,由此得到:=

2.3总体方差和估计总体方差的使用场景

    如果想求确切的总体方差,且拥有全部总体数据n,总体均值为,则可以使用下式计算:

如果需要求样本数据估计总体方差,则需要用公式,除数为n-1。

2.4样本均值分布算法描述

类描述

类源码见源程序: predict.vo. EstimateGeneralityVariance.java

方法描述

输入一个样本数据的数组,返回估计总体方差值

类和方法调用的接口

见源程序:predict.vo. EstimateGeneralityVariance.java

SampleMean.java 下有方法:public double run(double[] s)

调用封装类:predict.utils.ScoreUtil.java

ScoreUtil.java下有方法: subZeroAndDot(String s)

package vo;

import utils.ScoreUtil;
/**
 * @(#)EstimateGeneralityVariance.java
 * @Comments 估计总体方差
 * @description 符号σ^2 表示总体方差,估计总体方差等于样本中的每一个数值减去样本均值,所得之差取平方和数,
 * 然后将所有平方和相加,再除以样本大小n减1。
 * @author gyz
 * @date 2015-8-15
 * @since JDK1.8
 */
public class EstimateGeneralityVariance {
    /**
     *
     * @param s 输入一个数组:样本数据
     * @return egv 返回估计总体方差值
     */
    public  double run(double[] s) {
        SampleMean sm = new SampleMean();
        double sampleMean = sm.run(s);
        double different= 0.0;
        double egv;
        int n = s.length;
        for(int i=0;i<n;i++){
            different = (s[i]- sampleMean)*(s[i]- sampleMean);
        }
        egv = different/(n-1);
        //并将结果保留3位小数(四舍五入)
        String fx_String = ScoreUtil.getFractionDigits(egv,3);
        egv = Double.valueOf(fx_String);
        System.out.println("估计总体方差值:"+egv);
        return egv ;
   }
}

2.5估计总体方差使用场景

    当数据或事件数量十分庞大时,很难决定从何处着手收集数据,我们就可以有效地、正确地采用抽样收集数据。我们可以使用样本数据估计数据的总体方差。

2.6估计总体方差优缺点

2.6.1估计总体方差优点

我么使用样本数据估计总体方差,可以由此得知总体样本的期望形态。

2.6.2. 估计总体方差缺点

通过使用样本数据估计总体方差不一定是非常正确的,也会存在一些误差,或者需要在进行一些验证等。

2.7 估计总体方差算法的输入数据

@param s 输入一个数组:样本数据

2.8样本均值算法的输出结果

@return egv 返回估计总方差值

2.9样本均值算法异常和误差

2.9.1样本均值算法可能异常或误差

异常:输入数据不合法;

误差:保留小数位数造成不精确

2.9.2样本均值算法异常或误差处理

异常:解决,输入不合法给予提示。

误差:解决,进行小数点位数自定义保留封装,根据具体精度进行设置。

回到顶部

3比例的抽样分布描述

3.1比例抽样分布的定义

    如果从一个总体中用相同的方法抽取许多大小相同但存在差异的样本,然后用每个样本的某个属性形成一个分布,所得结果称为抽样分布。由此得出,用每个样本的比例形成的抽样分布就是"比例抽样分布"。比例抽样分布是一种概率分布,由所有大小为n的可能样本的各种比例构成。如果我们知道这些比例的分布,就能用这个分布求出某一个特定样本的比例的发生概率。

3.2比例抽样分布符号定义

    已知总体中红色糖球的比例,用p(proportion)表示,每一大盒糖球其实就是从糖球总体中取出的一个样本。样本的大小用n来表示。如果随机变量X代表样本中的红色糖球的数目,则X~B(n,p)。样本中的红色糖球的比例取决于X(样本中的红色糖球的数目),即比例本身是一个随机变量,用P表示,且P=X/n。可以取出大小为n的所有可能样本,每一个可能样本会包含n颗糖球,每一盒样本中红色糖球的数量会符合相同的分布。利用所有可能的样本,我们能得出所有样本比例的分布,该分布称作"比例抽样分布",或者称作" P的分布"。

3.3比例抽样分布计算步骤

1 查看与我们的特定样本大小相同的所有样本。

如果我们有一个大小为n的样本,就要考虑所有大小为n可能样本,在本例中,盒子的糖球数量为100,因此n为100。

2 观察所有样本形成的分布,然后求出比例的期望和方差。

每一样本都有自己的情况,因此每一个包装盒里的红色糖球的比例都有可能发生变化。我们用随机变量X代表样本中的红色糖球的数目,则X~B(n,p),其中n=100,p=0,25。样本中红色糖球的比例取决于X(样本中红色糖球的数据),即比例本身是一个随机变量,可以将此记为Ps , P= X/n。所以P的期望和方差分别如下: E(Ps) = p   和  Var(Ps) = 

3 得出上述比例的分布后,利用该分布求出概率。

当n很大时,Ps的分布接近正态分布。即当n>30的时候,Ps符合正态分布,利用正态分布解答我们的概率问题。但是每个样本都是离散的,因此在计算概率时,需要进行连续性修正。P的正态分布如下:

3.4比例抽样分布使用场景

 当数据或事件数量十分庞大时,很难决定从何处着手收集数据,我们就可以有效地、正确地采用抽样收集数据。从一个已知总体中取出某个样本的比例的时候,需要得知样本的期望形态,即可使用比例抽样分布。

3.5比例抽样分布优缺点

  1. 比例抽样分布优点 :可以使用比例的抽样分布求出从一个已知总体中取出的某个样本的比例的概率,可以由此得知样本的期望形态。
  2. 比例抽样分布缺点 :通过比例抽样分布得出的样本的期望不一定是非常正确的,也会存在一些误差,或者需要在进行一些验证等。

3.6 比例抽样分布算法的输入数据

@param n 样本大小

@param p 总体中某一类的所占比例

@param x 你所要求比例抽样分布概率的随机变量

3.7比例抽样分布算法的输出结果

输出中间结果

@return E(Ps) 比例抽样分布的期望E(Ps)

@return Var(Ps) 比例抽样分布的方差Var(Ps)

输出最终结果

@return 小于或等于符合正态分布的随机变量X的概率值

3.8比例抽样分布算法异常和误差

3.8.1比例抽样分布算法可能异常或误差

异常:输入数据不合法

误差:保留小数位数造成不精确

3.8.2比例抽样分布概率算法异常或误差处理

异常:解决,输入不合法给予提示。

误差:解决,进行小数点位数自定义保留封装,根据具体精度进行设置

3.9比例抽样分布算法描述

类的描述

类源码见源程序: predict.vo.ProportionSampleDistribution.java

方法描述

通过对需要计算比例抽样分布的均值和标准差进行计算得出具体标准分再通过调用org.apache.commons.math3.distribution类来实现。

类和方法调用的接口

类源码见源程序:predict.vo.ProportionSampleDistribution.java

ProportionSampleDistribution.java 下有如下方法:

public static double calculateExpectedValue(int n,double p)

//比例抽样分布的期望

public static double calculateVariance(int n,double p)

//比例抽样分布的方差

cumulativeProbability(double z)

//需要求符合正态分布的比例抽样分布的标准分。

调用封装方法:

predict.utils.ScoreUtil.java 下有如下方法:subZeroAndDot(String s)

//对传入的数保留3位小数

package vo;
import org.apache.commons.math3.distribution.NormalDistribution;
import utils.ScoreUtil;

/**
 * @(#)ProportionSampleDistribution.java
 * @Comments  比例抽样分布(求期望和方差)
 * @description 样本中某一类的数目X符合二项分布B(n,p),样本中某一类所占的比例是一个随机变量,记为Ps,且Ps=X/n
 * @author gyz
 * @date 2015-8-15
   @since   JDK1.8
 */
public class ProportionSampleDistribution {
     /**
      * 计算比例抽样分布的期望
      * @param n 样本大小
      * @param p 总体中某一类的所占比例
      * @return 比例抽样分布的期望E(Ps)=E(X/n)=E(X)/n
      */
    public static double calculateExpectedValue(int n,double p){
        //计算二项分布B(n,p)的期望
        double bEx = n*p;
        //利用总体期望求样本期望:E(Ps)=E(X/n)=E(X)/n
        double EPs = bEx/n;
        //并将结果保留3位小数(四舍五入)
        String EPs_String = ScoreUtil.getFractionDigits(EPs, 3);
        EPs = Double.valueOf(EPs_String);
        System.out.println("比例抽样分布的期望:"+EPs);
        return EPs;
    }
     /**
     * 计算比例抽样分布的方差
     * @param n 样本大小
     * @param p 总体中某一类的所占比例
     * @return 比例抽样分布的方差Var(Ps)=Var(X/n)=Var(X)/n2
     */
    public static double calculateVariance(int n,double p){

        //计算二项分布B(n,p)的方差[公式:Var(X)=npq]
        double bVar = n*p*(1-p);
        //利用总体方差求样本方差:var(Ps)=var(X/n)=var(X)/n
        double VarPs = bVar/n*n;

        //并将结果保留3位小数(四舍五入)
        String VarPs_String = ScoreUtil.getFractionDigits(VarPs, 3);
        VarPs = Double.valueOf(VarPs_String);
        System.out.println("比例抽样分布的方差:"+VarPs);
        return VarPs;
    }
    /**
     * @param args
     */
    public static void run(int n,double p,double x) {
        NormalDistribution normalDistributioin = new NormalDistribution(0,1);
        double u = calculateExpectedValue(n,p);
        double σ2 = calculateVariance(n,p);
        //normalDistribution(x);
        double σ = Math.sqrt(σ2);
        double z = (x-u)/σ;
        double fx = normalDistributioin.cumulativeProbability(z);
         //并将结果保留3位小数(四舍五入)
         String fx_String = ScoreUtil.getFractionDigits(fx,3);
         fx = Double.valueOf(fx_String);
         System.out.println("比例抽样分布X的概率:"+fx);
    }
}

4均值的抽样分布

4.1均值抽样分布的定义

    如果从一个总体中用相同的方法抽取许多大小相同但存在差异的样本,然后用每个样本的某个属性形成一个分布,所得结果称为抽样分布。由此得出,用每个样本的均值形成的抽样分布就是"均值抽样分布"。均值抽样分布是一种概率分布,由所有大小为n的可能样本的均值构成。如果我们知道这些样本均值的分布,就能用这个分布求出某一个特定样本均值的发生概率。

4.2均值抽样分布符号定义

    已知总体的均值和方差,并用和表示,一个包装袋中的糖球数量可以用X表示。随机选择的每一袋糖球都是X的一个独立观察结果,如果用代表随机选择的一袋糖球中的糖球数量,则每个的期望都是u,方差为。我们可以用表示这n袋糖球的容量均值,计算如下:

现在我们取出大小为n的所有可能样本,每一个可能样本包含n袋糖球,即每一个样本都包含X的n个独立观察结果。利用所有可能的样本,我们利用从所有可能样本得出的形成一个分布,该分布称作"均值抽样分布",或者称作"的分布"。

4.3均值抽样分布计算步骤

1 查看与我们的特定样本大小相同的所有样本。

如果我们有样本大小为n,就要考虑所有大小为n可能样本,在本例中,小包装糖球有30袋,因此n为30。

2 观察所有样本形成的分布,然后求出样本均值的期望和方差。

每一样本都各有特点,每个包装袋中的糖球数目有变化。已知总体的均值和方差,并用和表示,一个包装袋中的糖球数量可以用X表示。随机选择的每一袋糖球都是X的一个独立观察结果,如果用代表随机选择的一袋糖球中的糖球数量,则每个的期望都是u,方差为。我们用表示这n袋糖球的容量均值。这里的每一个Xi都是X的一个独立观察值,且我们已知E(X) = u,Var(X)=。所以的期望和方差分别如下: E(x) = u 和Var(x) = 

3 得出上述样本均值的分布后,利用该分布求出概率。

只要知道所有可能样本的均值的分布情况,就能利用该分布求出一个随机样本的均值的概率,在本例中,随机样本即小包装糖球。当n很大时,的分布接近正态分布。当X符合正态分布,则符合正态分布;当X不符合正态分布,但是当n>30的时候,仍然符合正态分布。

4.4均值抽样分布使用场景

 当数据或事件数量十分庞大时,很难决定从何处着手收集数据,我们就可以有效地、正确地采用抽样收集数据。从一个已知总体中取出某个样本的均值的时候,需要得知样本的期望形态,即可使用均值抽样分布。

4.5均值抽样分布优缺点

4.5.1均值抽样分布优点

可以使用均值的抽样分布求出从一个已知总体中取出的某个样本的均值的概率,可以由此得知样本的期望形态。

4.5.2.均值抽样分布缺点

通过均值抽样分布得出的样本的期望不一定是非常正确的,也会存在一些误差,或者需要在进行一些验证等。

4.6 均值抽样分布算法的输入数据

@param s 输入一个数组:样本数据

@param x 你所要求均值抽样分布概率的随机变量

4.7比例抽样分布算法的输出结果

输出中间结果

@return E(mean) 均值抽样分布的期望

@return Var(mean) 均值抽样分布的方差

输出最终结果

@return 小于或等于符合正态分布的随机变量X的概率值

4.8均值抽样分布算法异常和误差

4.8.1均值抽样分布算法可能异常或误差

异常:输入数据不合法;当n小于或等于30时,抛出异常,不能使用正态分布计算概率。

误差:保留小数位数造成不精确

4.8.2均值抽样分布算法异常或误差处理

异常:解决,输入不合法给予提示。

误差:解决,进行小数点位数自定义保留封装,根据具体精度进行设置

4.9均值抽样分布算法描述

类的描述

类源码见源程序: predict.vo.MeanSampleDistributio

方法描述

通过对需要计算均值抽样分布的均值和标准差进行计算得出具体标准分再通过调用org.apache.commons.math3.distribution类来实现。。

类和方法调用的接口

类源码见源程序:predict.vo.MeanSampleDistribution.java

MeanSampleDistribution.java 下有如下方法:

public static double calculateExpectedValue(double[] s)

//均值抽样分布的期望

public static double calculateVariance(double[] s)

//均值抽样分布的方差

cumulativeProbability(double z)

//需要求符合正态分布的比例抽样分布的标准分。

调用封装类:

predict.utils.ScoreUtil.java 下有如下方法:subZeroAndDot(String s)

package vo;
import java.util.ArrayList;
import java.util.List;
import java.util.Scanner;

import org.apache.commons.math3.distribution.NormalDistribution;

import utils.ScoreUtil;

/**
 * @(#)MeanSampleDistribution.java
 * @Comments  均值抽样分布(求期望和方差)
 * @description
 *     1.我们抽取总体中的大小为n的所有可能样本,可以标记为S1,S2,,,Sn,然后用这些样本的均值形成一个分布。
 *  2.S1=[X1,X2,,,Xn] S2=[X1,X2,,,Xn],,,Sn=[X1,X2,,,Xn] 由于每一个Xi都是X的一个独立观察结果。所以每个Xi
 *    的期望都是u,方差都是σ^2。
 *  3.E(X)=u,var(X)=σ^2, 样本均值mean=(X1+X2+...+Xn)/n
 * @author gyz
 * @date 2015-8-15
   @since   JDK1.8
 */
public class MeanSampleDistribution {

    /**
     * 计算均值抽样分布的期望
     * @param s 输入一个数组:样本数据
     * @return 均值抽样分布的期望E(mean)=E((X1+X2+....+Xn)/n)=(E(X1)+E(X2)+...+E(Xn))/n
     */
    public static double calculateExpectedValue(double[] s){

        //计算样本均值
        int sum=0;
        for(int i=0;i<s.length;i++){
            sum += s[i];
        }
        double mean = sum*1.0/s.length;
        //求均值抽样分布的期望
        double Emean;
        Emean = mean;

        //并将结果保留3位小数(四舍五入)
        String Emean_string = ScoreUtil.getFractionDigits(Emean, 3);
        Emean = Double.valueOf(Emean_string);
        System.out.println("均值抽样分布的期望:"+Emean);
        return Emean;
    }

     /**
    * 计算均值抽样分布的方差
    * @param s 输入一个数组:样本数据
    * @return 比例抽样分布的方差var(mean)=var((X1+X2+....+Xn)/n)=(var(X1)+var(X2)+...+var(Xn))/n
    */
    public static double calculateVariance(double[] s){
        //求均值抽样分布的方差
        int sum = 0;
        int n = s.length;
        double Varmean=0.0;
        for(int i=0;i<n;i++){
            sum += s[i];
        }
        double mean = sum*1.0/n;
        for(int i=0;i<n;i++){
            Varmean += (s[i] - mean)*(s[i] - mean);
        }
        Varmean = Varmean/n;
        //并将结果保留3位小数(四舍五入)
        String Varmean_string = ScoreUtil.getFractionDigits(Varmean, 2);
        Varmean = Double.valueOf(Varmean_string);
        System.out.println("均值抽样分布的方差:"+Varmean);
        return Varmean;
    }
    /**
     * @param args
     * @return
     */
    public static void run(double[] t,double x) {
        NormalDistribution normalDistributioin = new NormalDistribution(0,1);

        double u = calculateExpectedValue(t);
        double σ2 = calculateVariance(t);
        double σ = Math.sqrt(σ2);
        double z = (x-u)/σ;
        double fx = normalDistributioin.cumulativeProbability(z);
        //并将结果保留3位小数(四舍五入)
        String fx_String = ScoreUtil.getFractionDigits(fx,3);
        fx = Double.valueOf(fx_String);
        System.out.println("均值抽样分布X的概率:"+fx);
    }

}

5 中心极限定理的使用

回到顶部

6 总结与共享

6.1 总结

6.2共享 

PPT:http://yunpan.cn/cFkdV5ViBBPcj 访问密码 1db5

开源代码:http://yunpan.cn/cFkdQqGbcwEYp 访问密码 b03a

http://www.cnblogs.com/baiboy

时间: 2024-12-03 20:17:16

【程序员眼中的统计学(9)】总体和样本的估计:进行预测的相关文章

【程序员眼中的统计学(12)】相关与回归:我的线条如何? (转)

阅读目录 目录 1 算法的基本描述 2 算法的应用场景. 3算法的优点和缺点 4 算法的输入数据.中间结果以及输出结果 5 算法的代码参考 6 共享 相关与回归:我的线条如何? 作者 白宁超 2015年10月25日22:16:07 摘要:程序员眼中的统计学系列是作者和团队共同学习笔记的整理.首先提到统计学,很多人认为是经济学或者数学的专利,与计算机并没有交集.诚然在传统学科中,其在以上学科发挥作用很大.然而随着科学技术的发展和机器智能的普及,统计学在机器智能中的作用越来越重要.本系列统计学的学习

【程序员眼中的统计学(8)】统计抽样的运用:抽取样本

统计抽样的运用:抽取样本 1总体和样本 1.1总体和样本及相关概念 总体(population):统计学上指的是准备进行测量.研究或分析的整个群体.可以是人.得分,也可以是糖果 - 关键在于总体指的是所有对象.总体可分为有限总体和无限总体. 个体:组成总体的每一个考查对象. 样本(Sample):从总体中选取的一部分对象,是总体的一个子集.样本具有代表性,能在一定程度上反映总体特性. 抽样(Sampling):从总体中抽取部分个体的过程成为抽样,强调的是过程. 样本容量(Sample Size)

【程序员眼中的统计学(6)】几何分布、二项分布及泊松分布:坚持离散

几何分布.二项分布及泊松分布:坚持离散 1 回顾题引 1 问题? 小明滑雪: 每次(独立事件)试滑成功的概率0.2,不成功的概率0.8.则 成功 失败 0.2 0.8 1.试滑两次成功的概率?2.试滑一次或两次猜中的概率?3.试滑10000次,首次成功的概率?4.试滑第10000次以上成功的概率? 2 概率树: 3 解答: 1.概率树求概率 设X最终试滑成功次数,则:P(X=1)=P(第1次试滑成功)=0.2 [注:试滑一次成功的概率]P(X=2)=P(第1次试滑失败AND第2试滑成功)=0.2

【程序员眼中的统计学(7)】正态分布的运用:正态之美

正态分布的运用:正态之美 1正态分布描述 正态分布是最重要的一种概率分布.正态分布概念是由德国的数学家和天文学家Moivre(棣莫弗)于1733年受次提出的,但由于德国数学家Gauss(高斯)率先将其应用于天文学家研究,故正态分布又叫高斯分布.正态分布起源于误差分析,早期的天文学家通过长期对一些天体的观测收集到了大量数据,并利用这些数据天体运动的物理模型,其中第谷与开 普勒在建模中提出了一条原则-"模型选择的最终标准是其与观测数据的符合程度",这个"符合程度"实质上

【程序员眼中的统计学(1)】信息图形化:第一印象

1 饼图算法描述 1.1 饼图算法基本描述 在介绍饼图之前我们先来看一张表格: 上图是表示某公司在下半年中每月的利润情况. 就这张表格而言,我们只能知道各个月份的利润,却无法知道每个月份占总利润的比例,根据这张表格我们画出了两张图,如下: 我们从图中很容易可以得到两个信息:第一幅图看起来数据相差不大,第二幅图看起来数据相差非常大,对于同一张表所画出的两张图为什么会有两种截然不同的见解呢? 其实会发生上述不同的观点主要是因为这两张图的纵轴和标度不一样,第一张图纵轴的起点是0,标度是0.5,而第二张

【程序员眼中的统计学(4)】离散概率分布的运用:善用期望

离散概率分布的运用:善用期望  1 离散概率分布 1  定义 设离散型随机变量X所有可能得取值 Xi (i=1,2,3--.n),且事件{X=xi }的概率为P{X=xi }= pi ,此称为离散型随机变量的概率分布或分布列,即离散概率分布.用表格可表示: 作为一个离散概率分布,应满足以下两个性质: 在日常生活中此类例子不胜枚举,比如,扔一枚或多枚硬币,出现正面朝上的次数. 2    基本概念 离散随机变量 若一个随机变量X的所有可能的取值为有限个或无限可数个, 则称它为离散型随机变量.例如,玩

【程序员眼中的统计学(6.2)】原创实现二项分布算法以及应用

 二项分布算法 1 算法的基本描述,包括:定义.符号解释.具体的计算方法. 1.1 算法描述 在进行一系列相互独立实验,每次既有成功,又有失败的可能,且单次实验成功概率相等.在一系列试验中求成功的次数.这种情况下适用于本算法. 本算法中在n次伯努利试验中:试验n次得到r次成功的概率.二项分布的期望.二项分布方差的具体实现. 1.2 定义 在相互独立事件中,每道题答对概率为p,答错概率为q.在n个问题中答对r个问题的概率为:  这类问题称之为二项分布.表达式为:X~B(n,p) 1.3 符号解释

【程序员眼中的统计学(6.1)】原创实现几何分布算法以及应用

 几何分布算法 1 算法的基本描述,包括:定义.符号解释.具体的计算方法. 1.1 算法描述 在进行一系列相互独立实验,每次既有成功,又有失败的可能,且单次实验成功概率相等.为了取得第一次成功需要进行多少次实验.这种情况下适用于本算法. 本算法中在n次伯努利试验中:试验r次得到第一次成功的概率.试验r次以上才第一次成功的概率.试验r次或者不到r次才第一次成功.几何分布的期望.几何分布方差的具体实现. 1.2 定义 如果p代表成功概率,则1-p即q代表失败概率使用以下 公式叫做概率的几何分布. 1

【程序员眼中的统计学(11)】卡方分布的应用

卡方分布的应用 1 题引和基本知识介绍 1 什么是卡方分布?   若n个相互独立的随机变量ξ₁.ξ₂.--.ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和 Q=∑i=1nξ2iQ=∑i=1nξi2 构成一新的随机变量,其卡方分布规律称为x^2,分布(chi-square distribution),其中参数n称为自由度,正如正态分布中均值或方差不同就是另一个x2x2正态分布一样,自由度不同就是另一个分布.记为 Q~x^2(k). 卡方分布是