news 2026/4/29 0:51:31

Beta 分布学习笔记

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Beta 分布学习笔记

文章目录

  • 引言
  • Beta 分布定义
  • Beta 分布概率密度函数构造
  • Beta 分布其他性质
  • 利用多次伯努利试验更新 Beta 分布

前一段时间学习了 Dirichlet 分布,知道了这个分布其实本质上就是一种分布的分布。而今天写的Beta 分布本质上也是一种分布的分布。我是参考这篇文章学习的:【统计学进阶知识(一)】深入理解Beta分布:从定义到公式推导,感觉这篇文章讲得很到位,是一篇好文。下面是我学习这篇文章后写的一个笔记,以备后面复习查看。

引言

我们知道伯努利试验和伯努利分布这两个简单的概念。比如在抛硬币试验中,我们定义抛出正面为成功的事件。因为我们都知道抛出正面的概率为0.5 0.50.5,因此我们可以说X ∼ B e r n o u l l i ( q = 0.5 ) X \sim Bernoulli(q=0.5)XBernoulli(q=0.5)。然而这个q qq事实上真为 0.5 吗?其实并不是,这只是基于频率学派得出的一个观点。用来做试验的硬币可能因为正反面材质不均匀,导致我们抛出正面的概率并非 0.5。q qq可能为任何数,只不过对于不同的数有不同的可能性,而 Beta 分布就是来研究这个q qq的概率分布的。

另一方面,Beta 分布的性质还可以帮助我们通过不断进行伯努利试验来更新初始化的q qq的概率分布,也就是利用后验概率来更新先验概率,从而慢慢接近事实上的概率,关于这一点后面也会讲到。

Beta 分布定义

连续型随机变量X XX(其实就是引言中提到的q qq,注意不要和伯努利分布和二项分布搞混) 服从参数为α , β α,βα,β的 Beta 分布,记为X ∼ B e t a ( α , β ) X \sim Beta(α, β)XBeta(α,β),满足:

  • 参数条件:α > 0 , β > 0 α > 0, β > 0α>0,β>0

  • 取值范围:X ∈ ( 0 , 1 ) X \in (0,1)X(0,1)

Beta 分布的概率密度函数为:

f ( x ) = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 , x ∈ ( 0 , 1 ) f(x) = \frac{1}{B(α,β)} x^{α-1} (1-x)^{β-1}, \quad x \in (0,1)f(x)=B(α,β)1xα1(1x)β1,x(0,1)

其中,B ( α , β ) B(α,β)B(α,β)叫做Beta 函数,用来归一化,让概率密度函数在定义域积分后为 1,公式为:

B ( α , β ) = ∫ 0 1 x α − 1 ( 1 − x ) β − 1 d x = Γ ( α ) Γ ( β ) Γ ( α + β ) B(α,β) = \int_{0}^{1} x^{α-1} (1-x)^{β-1} dx = \frac{\Gamma(α)\Gamma(β)}{\Gamma(α+β)}B(α,β)=01xα1(1x)β1dx=Γ(α+β)Γ(α)Γ(β)

等式最右边利用伽马函数(Γ ( m ) = ( m − 1 ) ! \Gamma(m) = (m-1)!Γ(m)=(m1)!m mm为正整数)改写了形式显得简约美观,具体推导会在后面介绍。

Beta 分布概率密度函数构造

二项分布是在多次伯努利试验基础上得到的成功次数的分布,我们下面从二项分布出发来构造一个 Beta 分布的概率密度函数。设离散型随机变量X XX服从参数为n , q n,qn,q的二项分布X ∼ B ( n , q ) X \sim B(n, q)XB(n,q),我们可以写出二项分布的概率公式:

P ( X = x ) = ( n x ) q x ( 1 − q ) n − x P(X=x) = \binom{n}{x} q^x (1-q)^{n-x}P(X=x)=(xn)qx(1q)nx

下面我们利用类似的结构构造一个关于参数q qq的概率密度函数,这里的q qq是一个连续型变量,在( 0 , 1 ) (0,1)(0,1)内取值。首先我们先写出正比形式:

f ( q ) ∝ q a ( 1 − q ) b f(q) \propto q^{a}(1-q)^{b}f(q)qa(1q)b

然后通过除以归一项来变成合法的概率密度函数:

f ( q ) = 1 ∫ 0 1 q a ( 1 − q ) b d q q a ( 1 − q ) b f(q)=\frac{1}{\int_{0}^{1}q^a (1-q)^b dq}q^a(1-q)^bf(q)=01qa(1q)bdq1qa(1q)b

接下来我们通过变量替换等操作改一下形式,让这个密度函数更加漂亮。首先利用α = a + 1 \alpha=a+1α=a+1β = b + 1 \beta=b+1β=b+1进行变量替换:

f ( q ) = 1 ∫ 0 1 q α − 1 ( 1 − q ) β − 1 d q q α − 1 ( 1 − q ) β − 1 f(q)=\frac{1}{\int_{0}^{1}q^{\alpha-1} (1-q)^{\beta-1} dq}q^{\alpha-1}(1-q)^{\beta-1}f(q)=01qα1(1q)β1dq1qα1(1q)β1

其中分母∫ 0 1 q α − 1 ( 1 − q ) β − 1 d q \int_{0}^{1}q^{\alpha-1} (1-q)^{\beta-1} dq01qα1(1q)β1dqBeta 函数B ( α , β ) B(\alpha,\beta)B(α,β),我们简写一下,同时把q qq换成x xx就变成了 Beta 分布的概率密度函数了:

f ( x ) = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 f(x)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}f(x)=B(α,β)1xα1(1x)β1

Beta 函数B ( α , β ) B(\alpha,\beta)B(α,β)还可以写成Γ ( α ) Γ ( β ) Γ ( α + β ) \frac{\Gamma(α)\Gamma(β)}{\Gamma(α+β)}Γ(α+β)Γ(α)Γ(β)的形式,对应的推导可以看[这篇文章中的2. Beta 函数和 Gamma 函数的关系](https://zhuanlan.zhihu.com/p/69606875#:~:text=2. Beta 函数和 Gamma 函数的关系)这部分,具体的推导思路就是在放球试验中,从两种不同角度用两种不同公式得到同种概率建立等式。

Beta 分布其他性质

  1. 期望:E ( X ) = α α + β E(X) = \frac{α}{α+β}E(X)=α+βα

  2. 方差:V a r ( X ) = α β ( α + β ) 2 ( α + β + 1 ) Var(X) = \frac{αβ}{(α+β)^2 (α+β+1)}Var(X)=(α+β)2(α+β+1)αβ

  3. 概率分布函数:F ( x ) = B ( x ; α , β ) B ( α , β ) F(x) = \frac{B(x; α,β)}{B(α,β)}F(x)=B(α,β)B(x;α,β)

其中,B ( x ; α , β ) B(x; α,β)B(x;α,β)为不完全 Beta 函数,即把原Beta函数的定积分上限变为变量x(即变上限积分):B ( x ; α , β ) = ∫ 0 x t α − 1 ( 1 − t ) β − 1 d t B(x; α,β) = \int_{0}^{x} t^{α-1} (1-t)^{β-1} dtB(x;α,β)=0xtα1(1t)β1dt

利用多次伯努利试验更新 Beta 分布

这里直接说结论了:假设伯努利试验的成功概率q qq服从的先验概率分布为X ∼ B e t a ( α , β ) X \sim Beta(α, β)XBeta(α,β),当进行了n nn次伯努利试验后,其中出现k kk次成功,可以得到q qq的后验概率分布服从X ∼ B e t a ( α + k , β + n − k ) X \sim Beta(α + k, β + n - k)XBeta(α+k,β+nk)。具体的推导可以看文章的4. Beta分布与二项分布的关系,也比较有趣。

我们可以观察一下后验概率分布形式和先验概率分布形式,发现两个参数分别加了k kkn − k n-knk,正好是这n nn次伯努利试验中成功的次数和失败的次数。因此我们可以说 Beta 分布中的参数α , β \alpha,\betaα,β可以从感觉上理解为伪计数,其中α − 1 \alpha-1α1类似多次伯努利试验中的成功计数,β − 1 \beta-1β1类似多次伯努利试验中的失败计数。

α = 1 , β = 1 α=1, β=1α=1,β=1时,Beta 分布退化为( 0 , 1 ) (0,1)(0,1)区间的均匀分布:f ( x ) = 1 B ( 1 , 1 ) x 0 ( 1 − x ) 0 = 1 , x ∈ ( 0 , 1 ) f(x) = \frac{1}{B(1,1)} x^{0} (1-x)^{0} = 1, \quad x \in (0,1)f(x)=B(1,1)1x0(1x)0=1,x(0,1)此时,伪计数为 0,表示一点不知道q qq的分布,因此可以在( 0 , 1 ) (0,1)(0,1)区间等概率选取。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/27 9:59:55

304M参数引爆效率革命:AMD Nitro-E重新定义图像生成基准

304M参数引爆效率革命:AMD Nitro-E重新定义图像生成基准 【免费下载链接】Nitro-E 项目地址: https://ai.gitcode.com/hf_mirrors/amd/Nitro-E 导语 还在为文生图模型的高昂训练成本和缓慢推理速度发愁?AMD最新开源的Nitro-E模型以304M参数实现…

作者头像 李华
网站建设 2026/4/23 14:28:49

ParsecVDisplay终极指南:免费虚拟显示器实现4K 240Hz超流畅体验

ParsecVDisplay终极指南:免费虚拟显示器实现4K 240Hz超流畅体验 【免费下载链接】parsec-vdd ✨ Virtual super display, upto 4K 2160p240hz 😎 项目地址: https://gitcode.com/gh_mirrors/pa/parsec-vdd ParsecVDisplay是一款基于Parsec虚拟显示…

作者头像 李华
网站建设 2026/4/28 20:03:44

付费墙访问优化指南:便捷获取受限内容的完整教程

你是否曾经遇到过这样的情况:点击一篇看似很有价值的文章,却被付费墙挡住了去路?在数字内容付费化日益普及的今天,Bypass Paywalls Clean这款专业的Chrome浏览器扩展工具,为你提供了优化各类付费墙访问体验的完整解决方…

作者头像 李华
网站建设 2026/4/21 15:38:25

现网都在用但很多人不知道的网络服务和管理

一、DHCP 动态主机配置协议 核心概念 协议层级:应用层协议 核心作用:客户端网卡设置为「动态获取IP」模式时,DHCP服务器会自动为其分配IP地址、子网掩码、网关、DNS等网络参数,实现客户端联网,减少手动配置工作量。 典型场景:办公网、校园网、家庭路由器等大规模终端接入…

作者头像 李华
网站建设 2026/4/27 8:54:56

别再只买护眼灯了!这款眼调节训练灯,写作业就能做调节训练

随着近视低龄化趋势的加剧,家长对护眼产品的需求已不再满足于“减少伤害”,而是追求“主动改善”。传统护眼灯的核心作用集中在优化照明环境,通过控制光线参数降低对眼睛的伤害,却无法防控近视的发生,而长时间近距离用…

作者头像 李华
网站建设 2026/4/20 8:34:46

B站视频下载工具BBDown:从入门到精通的全场景解决方案

你是不是也遇到过这样的困扰?精心收藏的B站学习视频突然下架,想离线观看的课程内容无法缓存,或者需要批量保存UP主的系列作品却无从下手?今天我要向你推荐一款能够彻底解决这些痛点的B站视频下载工具——BBDown,这个命…

作者头像 李华