news 2026/5/8 2:22:13

统计分析|全方位了解正态分布

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
统计分析|全方位了解正态分布

在做数据分析时,经常会要求数据服从正态分布,它在统计推断、模型构建中都很重要,那到底什么是正态分布呢?本期将为大家介绍正态分布,文章内容包括:

1.什么是正态分布;

2.公式、曲线怎么看;

3.正态分布的特征数字;

4.数据不呈现正态分布处理方法;

5.正态分布的应用。

1、什么是正态分布?

正态分布描述了某些比较稳定但又受一些偶然因素影响的现象。比如说考试成绩分布、人体身高数据等都是近似服从正态分布的。它代表了现实中最普通的一种数据形式最早由法国数学家德·莫阿弗尔 (A. de Moivre)提出,但是是由高斯在研究误差理论时准确描述了正态分布,因此也称高斯分布。它是科研中最重要也是最常见的连续型随机变量分布,所以也被称作常态分布。下面具体看什么叫连续型随机变量。

首先变量分为连续型和离散型,正态分布的变量就是连续型的,它在数轴上任意不同两点之间可取值是无限的,可在某个给定的实数范围内任意取值 ,比如说身高、 体重、 血压等。它和离散型是不同的,后者在数轴上任意不同两点之间可取值的范围是有限的。在一个实数范围内取整数值,如掷骰子的点数、单位容积(L) 的红细胞计数、白细胞计数等。

随机变量则是用来描述那些结果具有随机性的数值或现象。这里的随机主要指的是结果的不确定性、不可预测性以及取值的多样性。可以是离散的,也可以是连续的。

连续型随机变量指的是取值范围在一个实数区间内可以连续变化,并且有无限个数值,无法一一列举出来的随机变量。举个例子:等待公交车的时间就是一个连续随机变量,假设发车的间隔是5min,我们等待的时间可以是这个时间段内的任意实数。因为我们等的这班车什么时候到受到很多随机因素的影响,可能有些司机开车比较快,可能上一站上车的人数多,可能今天开车的人多路比较堵等等都会影响我们等到这班车的时间,而且这些影响因素都是随机发生的。

2、公式、曲线怎么看?

正态分布一般呈现的曲线如下左图所示,但它的含义与频数分布图(右图)没什么区别,只是在理论中把频数分布图的组距细化到无限窄而已。

图像是由该公式得到:

如果随机变量X的概率分布服从概率密度函数,则称为服从正态分布,记为:,其中𝜇的总体均数,σ^2为总体方差

该公式中最关键的两个值就是𝜇和σ。

这个曲线就是关于X=𝜇这条直线左右对称,并且始终在X轴的上方,此外,当X=𝜇时f(X)最大,最大值就是因为这个函数在这里有个负号,所以它越小,值越大。当这部分等于0时整个函数最大,也就是X=𝜇时。𝜇指的是均值,也叫数学期望。均值属于统计学范畴,期望属于概率论范畴,它俩本质是一个东西。

σ是标准差,σ^2表示方差,指和中心偏离的程度,用来度量随机变量和其数学期望也就是均值之间的偏离程度。即反应了该组数据的分散程度,方差越小,数据越集中,方差越大数据越分散。

为了便于理解,给大家介绍一个叫高尔顿钉板的东西,它长这样:

每一个黑点表示钉在板上的一颗钉子,它们彼此的距离均相等,上一层的每一颗钉子的水平位置恰好位于下一层的两颗钉子正中间。从入口处放进一个直径略小于两颗钉子之间的距离的圆球,当小圆球向下降落过程中,碰到钉子后皆以1/2的概率向左或向右滚下,于是又碰到下一层钉子。如此继续下去,直到滚到最下面底板的一个格子内为止。把许许多多同样大小的小球不断从入口处放下,只要球的数目相当大,它们在底板将堆成近似于正态的密度函数图形也就是中间高,两头低,左右对称的钟型曲线(如下图所示)。

假设这些小圆球代表钱,中间这两个通道的钱最多,如果我们现在把所有的钱都放在一起,那我们从这堆钱里面随机抽一个,预期抽到中间两个通道的钱的概率最大,因为它们多。正态分布它就是一个概率分布函数,最高点就是概率最大的。

我们再换一个思路,如果每个通道代表一个人,中间的就是首富了,那我们取均值,均值是不是靠近中间首富,因为他们是在太有钱了,我们都被他们平均了,那我们会不会期望自己能够达到这个平均水平呢。此时均值就是我们的期望了

在具有相同数量小球的情况下,通道越多,这些小球越分散,都去了不同的通道,通道越少,小球越集中在一个通道中。通道越多就可以理解为σ越大,即数据越分散,通道越少就理解为σ越小,即数据越集中。

那如何计算落在某一个给定区间内的概率是多少?其实就是计算这个区间内曲线下面积。

如上图所示,如果是求落在-31区间内的概率,计算的就是这个橘红色面积。

在正态分布中有一种特殊情况——标准正态分布,就相当于把正态分布的规律简化了,如下图所示:

即µ=0,σ=1,对应的横轴上的数值1、2、3就是1个标准差、 2个标准差、3个标准差;我们利用标准正态分布来说明面积规律就更简单了,可以直接说,以0为中心,在±1的范围内面积约为68.2%

3、正态分布的特征数字

首先是一组数字68、95、99.7。

在正态分布中,以均数为中心,往左或往右1倍标准差的面积各约为34.1%换句话说,在士1个标准差的范围内,曲线下面积约为68% ,在士2个标准差的范围内曲线下面积约为 95% ,在士3个标准差的范围内面积约为99.7%。(如上图所示)

还有一个特征数字是1,即整个曲线与X轴围成的面积是1,因为一件事情发生的概率加在一起就是100%,也就是1。因为正态分布曲线与X所围成的曲线下面积是一个固定值1。该曲线图如下:

µ不变的情况下,σ越小,数据越集中即曲线越瘦又因为围成的面积是固定值1,那么这个曲线需要高,所以σ越小,曲线越瘦高;

σ越大,数据越分散,那么这个曲线就越宽,有因为围成的面积是固定值,那么曲线就需要矮,所以σ越大,曲线越矮胖;

其中µ的大小是曲线左右平移,不影响曲线的高低。

4、数据不呈现正态分布处理方法

有几种方式:

1)加大样本量。根据中心极限定理,只要样本量足够大,就我们医学研究来说数据基本上最后都会呈现正态分布的。

2)数据转换。常见的方式有对数转换、平方根转换、倒数转换、还有Box-Cox转换。Box、Cox是两位统计学家的名字。是一种通过对数据进行幂函数转换来调整数据分布形态的方法。这个转换通过引入一个变换参数λ(lambda),使得变换后的数据更加接近正态分布,这个λ可以自动优化以最大限度地提高数据的正态性或对称性。这个方法可以根据数据的实际情况选择合适的转换参数,从而改善数据的正态性。

注意:做完转换之后要重新检测一下正态性,因为可能数据转换之后还引入了之前不存在的偏态,此外进行了转换的数据要考虑是它统计检验的意义。

3)换检验方法。比如说使用非参数检验。

4)换统计方法。线性回归、方差分析对正态性的要求比较高,而lasso这种对正态性要求比较低。

5、正态分布的应用

首先,我们经常说 P<0.05 认为差异有统计学意义,实际上说的就是正态分布的两侧面积。确切地说,当从均数往左或往右各 1.96 倍标准差的时候,对应的左侧和右侧面积之和就是 5% 。因为概率不是很高,所以认为其是小概率事件。

其次,在统计学中,许多假设检验都基于正态分布的假设。例如,t检验、z检验等等,这些检验方法用于判断两个样本均值之间是否存在显著差异。这些检验都假定数据来自正态分布的总体。

另外,置信区间估计:在一些数据分析中,我们常需要估计一个总体参数(如均值、方差等)的置信区间。当数据来自正态分布时,可以利用正态分布的性质来计算这些参数的置信区间。

最后预测和建模中也会要用到正态分布:在回归分析中,通常假设因变量在各自自变量取值下是正态分布的。这是线性回归模型的一个基本假设。如果数据不符合正态分布,那可能需要对数据进行转换。此外,在观察残差的分布时,如果残差近似服从正态分布,则表明模型拟合效果较好。在许多统计建模中,如线性模型、广义线性模型等,我们都需要假设因变量的分布符合正态分布。

转自:https://mp.weixin.qq.com/s/SCkAWxHkWG6k7-0TnRlL0A

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/7 18:54:49

ISO/IEC/IEEE 29119软件测试标准完全指南:从理论到企业级实践

软件测试国际标准ISO/IEC/IEEE 29119为软件测试提供了系统化的方法论,本文全面解析这一标准的核心内容与实战应用。 1 引言:为什么需要软件测试标准? 在当今快速迭代的软件开发环境中,软件质量已成为决定产品成功与否的关键因素。作为软件质量保证的核心环节,软件测试不仅…

作者头像 李华
网站建设 2026/5/7 18:55:09

好写作AI:让你和“茶多酚”说拜拜!毕业论文术语替换黑科技揭秘

学术黑话说不准&#xff0c;论文降重两行泪。你的术语库&#xff0c;该升级了&#xff01;“同学&#xff0c;你这个‘茶多酚’在食品领域常用&#xff0c;但在我们生物化学方向&#xff0c;更精确的术语应该是‘茶类黄酮化合物’……”导师的批注像一道惊雷&#xff0c;把你熬…

作者头像 李华
网站建设 2026/5/7 18:55:10

百考通AI:您的智能数据分析师,让复杂洞察一键生成

在当今这个数据驱动的时代&#xff0c;无论是学术研究、商业决策还是市场运营&#xff0c;数据分析都已成为不可或缺的核心能力。然而&#xff0c;对于非专业人员而言&#xff0c;面对海量数据和复杂的分析工具&#xff0c;如何快速、准确地提炼出有价值的洞察&#xff0c;往往…

作者头像 李华
网站建设 2026/5/7 18:55:11

网上订餐|基于ssm+ vue网上订餐系统(源码+数据库+文档)

网上订餐 目录 基于ssm vue网上订餐系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 基于ssm vue网上订餐系统 一、前言 博主介绍&#xff1a;✌️大厂码农|毕设布…

作者头像 李华
网站建设 2026/4/27 11:02:10

吐血推荐MBA必用10款一键生成论文工具

吐血推荐MBA必用10款一键生成论文工具 2026年MBA论文写作工具测评&#xff1a;如何选对工具提升效率 MBA学习过程中&#xff0c;论文写作是一项重要且耗时的任务。面对繁重的课程压力与研究任务&#xff0c;选择一款高效、专业的论文辅助工具显得尤为重要。随着AI技术的不断进步…

作者头像 李华