概率论与数理统计

简介

概率论是研究随机现象数量规律的一门学科。

概率基础

随机变量

如果对于样本空间 $\Omega$ 中的每一样本点 $\omega$ ,都唯一地对应着一个实数 $X(\omega)$ ,则称实值变量 $X(\omega)$ 为一个 随机变量,简记为 $X$。

$X(\omega)$ 是依赖于 $\omega$ 的一个变量。

对于一个随机变量来说,描述它的取值及其取值概率的公式或表格称为此随机变量的概率分布。

离散型随机变量

如果随机变量 $X$ 只取有限个值或可列个值,则称 $X$ 为 离散型随机变量

离散型随机变量的基本性质:

  • $p_k \geqslant 0 \hspace{10mm} (k=1,2,\dots)$

  • $\sum\limits_{k} p_k = 1$

几类常见的概率分布:

  • 两点分布(伯努利分布或0-1分布)

  • 二项分布

    • 二点分布是 $n=1$ 的二项分布( $n$ 为试验次数)

  • 泊松分布

  • 超几何分布

常见概率分布之间的关系:

  • 二项分布是超几何分布的极限分布

  • 泊松分布是二项分布的极限分布

连续型随机变量

对于随机变量 $X$ ,如果存在非负可积函数 $p_X(x) \geqslant 0 \hspace{5mm} (-\infin \lt x \lt + \infin)$ ,使得对任意的两个数 $a$ 与 $b\hspace{3mm} (a>b)$ ,都有

P{a<X<b}=abpX(x)dxP\{a\lt X \lt b\} = \int_a^b p_X(x) \mathrm{d}x

则称 $X$ 为 连续型随机变量 ;称 $p_x(x)$ 为 $X$ 的概率密度函数(简称为概率密度密度)。

实际上,$p_X(x)$ 不是随机变量 $X$ 取值为 $x$ 的概率,而是在 $x$ 点的 概率密度 值。关于连续型随机变量 $X$ ,只讨论落在一个区间内的概率,$X$ 落在无穷小区间 $\mathrm{d}x$ 内的概率是 $p_X(x)\mathrm{d}x$。

概率密度 $p_X(x)$ 具有的性质:

  • $\int_{-\infin}^{+\infin} p_X(x) \hspace{2mm} \mathrm{d}x = 1$

几类常见的连续型概率分布

  • 均匀分布

  • 指数分布

  • 正态分布

  • $\Gamma$ 分布

概率P

其值域为 [0,1][0, 1] ,对于离散 / 连续变量而言,P(x=x0)P(x=x_0) 分别表示 $x_0$ 发生的概率 / 概率密度。

概率密度

概率指事件随机发生的机率,对于均匀分布函数,概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。

对于随机变量 $X$ 的分布函数 $F(x)$ ,如果存在非负可积函数 $f(x)$,使得对任意实数 $x$ ,有

F(x)=xf(t)dtF(x) = \int_{-\infin}^{x} f(t) \mathrm{d}t

则 $X$ 为连续型随机变量,称 $f(x)$ 为 $X$ 的概率密度函数,简称为概率密度。

累计分布函数

累积分布函数(Cumulative Distribution Function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量 $X$ 的概率分布

对于离散型随机变量,使用概率分布 $P{X=x_k} = p_k \hspace{5mm} (k=1,2,\dots)$ 来描述的;关于连续型随机变量,是用概率密度函数来描述的。离散型随机变量着眼于取值点的概率,而连续型随机变量着眼于一个区间内取值的概率。

设 $X$ 是一个随机变量,$x$ 是任一实数,令

F(x)=P{Xx}F(x) = P\{X\leqslant x\}

则称为 $F(x)$ 为随机变量 $X$ 的累积分布函数,简称 $X$ 的分布函数

概率密度函数是分布函数的一阶导数,分布函数是概率密度函数的一个特定原函数。

如果随机变量 $X$ 的分布函数 $F(x)$ 具有连续的导函数 $F'(x)$ ,则 $F'(x)$ 就是 $X$ 的密度函数。

期望

期望是事件与概率的加权均值。

  • 对于离散变量:$E(x) = \sum\limits_{i}X_iP_i$

  • 对于连续变量:$E(x) = \int xf(x)\mathrm{d}x$

期望具有以下属性:

  • $E(kX) = kE(X)$

  • $E(X+Y) = E(X) + E(Y)$

  • 若 $X,Y$ 独立,则 $E(X,Y) = E(X)E(Y)$

方差

用以描述随机变量与数学期望之间的偏离程度,定义为:

Var(X)=E[XE(X)]2=E[X22XE(X)+E(X)2]=E(X2)E(X)2Var(X) = E[X-E(X)]^2=E[X^2 - 2XE(X) + E(X)^2] = E(X^2) - E(X)^2

方差具有如下的属性:

  • $Var(c) = 0$

  • $Var(X+c) = Var(X)$

  • $Var(cX) = c^2Var(X)$

  • 若 $X,Y$ 独立,则 $Var(X+Y) = Var(X) + Var(Y)$

协方差

用于衡量两个变量的整体误差,定义为:

Cov(X,Y)=E[XE(X)][YE(Y)]Cov(X, Y) = E[X-E(X)][Y-E(Y)]

协方差具有如下属性:

  • $Cov(X,Y) = Cov(Y,X)$

  • $Cov(aX+b, cY+d) = acCov(Y,X)$

  • $Cov(X_1+X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y)$

  • $Cov(X,Y) = E(XY) - E(X)E(Y)$

  • 所以当X,Y独立时,协方差为0,但反过来,协方差为0,我们只能说两个变量不相关。

Pearson相关系数

Pearson相关系数为:

ρXY=Cov(X,Y)Var(X)Var(Y)\rho XY = \frac{Cov(X, Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}}

常见分布

两点分布

概率函数

  • $P(X=1) = p$

  • $P(X = 0) = 1 - p$

期望

$E(X) = p(1-p)$

二项分布

相当于二点分布独立进行了n次。

期望

$E(X) = np(1-p)$

泊松分布

泊松分布通常用于当一个随机事件以固定的平均速率随机独立出现,那么单位时间内出现的次数近似服从泊松分布。

概率函数

$P(X=k) = \frac{\lambda^k}{k!}e^{-\lambda}$

期望

$E(x) = \lambda D(x) = \lambda$

均匀分布

在指定的区域其概率密度相等。

期望

$E(X) = \frac{a+b}{2}D(X) = \frac{(a-b^2)}{12}$

指数分布

概率分布

$f(X) = \frac{1}{\sqrt{2\pi}\delta}e^{-\frac{(X-\mu)^2}{2\delta^2}}$

期望

$E(X) = \mu D(X) = \delta^2$

Beta分布

Gamma函数

$\Gamma(X) = \int_{0}^{\infin}t^{X-1}e^{-t} \mathrm{d}t$

概率密度函数

$f(X) = \frac{1}{B(\alpha, \beta)}X^{\alpha-1}(1-X)^{\beta-1}$

期望

$E(X) = \frac{\alpha}{\alpha + \beta}$

参考

最后更新于

这有帮助吗?