hello大家好,我是城乡经济网小晟来为大家解答以上问题,统计学知识点梳理,统计学基础干货很多人还不知道,现在让我们一起来看看吧!
01
位置的度量
1.平均数
将数据按照从小到大排列:
出现最多的数据,可能不止一个。
至少有p%的数据小于等于该值,至少有1-p%的数据大于等于该值。
将数据按照从小到大的顺序排列,并计算n*p%:
02
变异程度的度量
1.极差与四分位数间距
极差与四分位数间距都是变异程度的简单度量,相比较而言,极差更容易受异常值影响,因此多采用四分位数间距。
2.方差与标准差
方差是对数据总体变异程度的度量。
其中样本方差为无偏方差。
证明:其中μ为总体均值,σ为总体标准差
对于随机变量X
故有
同理,由于
故
标准差(s):方差的算术平方根。
标准差系数(变异系数):标准差除以平均数。
03
分布形态、相对位置度量以及异常值检测
1.分布形态的度量——偏度
偏度:若随机变量的三阶矩存在,则偏度定义如下:
当偏度大于0时,称为右偏,偏度小于零称为左偏。
2.切比雪夫定理
切比雪夫定理:对于任意分布,与均值距离z个标准差的之内的数据所占的比例至少为1-1/z2,其中z>0。
切比雪夫定理来源于切比雪夫不等式:
或
针对连续变量的切比雪夫不等式证明:
要证
只需
即
由于
且
故原命题得证。
3.异常值检测
异常值检测有两种简单的方法:
1.z-score法
由于日常数据大多近似服从正态分布,由标准正态分布表可知,数据位于z=±3之内的的概率为99.87%,因此,对于z位于该区间之外的数据认为是异常值。
2.四分位数间距法
04
五数概括法和箱线图置的度量
1.五数概括法
用最大值最小值中位数以及上下四分位数五个数字对数据进行概括的方法。
2.箱线图
以上数据为某城市100家餐厅的代表餐品价格以及餐厅的质量评级,下面使用箱线图描述不同等级的餐厅价格分布。其中:
05
两变量之间关系的度量
1.协方差
协方差是两随机变量线性相关性的度量,协方差绝对值越大,两随机变量相关性越强,协方差为正数表明两随机变量正相关,协方差为负表明两随机变量负相关。对于一组容量为N的数据,其观测值为(X1Y1),(X2Y2)...(XNYN),其协方差定义如下:
总体协方差:
类似的,样本协方差为:
样本协方差为总体协方差的无偏估计量,其证明如下:
2.相关系数
协方差的问题在于受数据大小影响,例如,将所有数据扩大5倍,则线性相关性不变但是协方差绝对值增大,为避免这种现象,我们采用相关系数描述相关性。
总体相关系数:
样本相关系数:
相关系数取值范围的证明:
由柯西-施瓦茨不等式
易证明相关系数取值范围为[-1,1]
柯西-施瓦茨不等式简单证明:
构造一个恒不为负的二次函数
由于其恒为非负,故有判别式小于等于0,即:
原命题得证。
荐:
声明
来源:segmentfault,人工智能产业链联盟推荐阅读,不代表人工智能产业链联盟立场,转载请注明,如涉及作品版权问题,请联系我们删除或做相关处理!
本文就为大家讲解到这里,希望对大家有所帮助。
标签: