Introduction to Data Science (0)


在这个系列开始之前先附上几种常用的概率分布律、期望和方差。

参考书籍:《概率论与数理统计》 浙大第四版

离散型随机变量

随机变量全部可能取到的值是有限个或者可列无限多个(可数),这种随机变量称为离散型随机变量

(0-1)分布

(0-1)分布的随机变量\(X\)只可能取0与1,如果概率满足 \[ P_k=P\{X=k\}=p^k(1-p)^{1-k},\quad k=0,1\qquad (0<p<1), \]\(X\)服从参数为\(p\)的(0-1)分布。

  • 分布律:\(P\{X=k\}=p^k(1-p)^{1-k},\quad k=0,1\qquad (0<p<1)\)

    \(X\) 0 1
    \(P_k\) \(1-p\) \(p\)
  • 期望:\(\text{E}[X]=p\)

  • 方差:\(\text{V}[X]=p(1-p)\)


几何分布

进行重复独立试验,设每次试验的成功概率为\(p~(0<p<1)\),失败概率为\(q=1-p\),将试验进行到出现一次成功为止,所需的试验次数的记为\(X\),称\(X\)是服从参数为\(p\)的几何分布。

  • 分布律:\(P\{X=k\}=(1-p)^{k-1}p,\quad k=1,2,\dots\)
  • 期望:\(\text{E}[X]=\frac{1}{p}\)
  • 方差:\(\text{V}[X]=\frac{1-p}{p^2}\)

伯努利分布/二项分布

设试验\(E\)只有两个可能的结果:\(A\)\(\bar{A}\),则称\(E\)为伯努利试验。设\(P(A)=p~(0<p<1)\)。将\(E\)独立重复地进行\(n\)次,则称这一串重复的独立试验为\(n\)重伯努利试验。

  • 分布律:\(P\{X=k\}=\binom{n}{k}p^k(1-p)^{n-k},\quad k=0,1,\dots,n\)
  • 期望:\(\text{E}[X]=np\)
  • 方差:\(\text{V}[X]=np(1-p)\)

巴斯卡分布(负二项分布)

进行重复独立试验,设每次试验的成功概率为\(p~(0<p<1)\),失败概率为\(q=1-p\),将试验进行到出现\(r\)次成功为止,所需的试验次数的记为\(X\),称\(X\)是服从参数为\(r,p\)的巴斯卡(负二项)分布。

  • 分布律:\(P\{X=k\}=\binom{k-1}{r-1}p^r(1-p)^{k-r},\quad k=r,r+1,\dots\)
  • 期望:\(\text{E}[X]=\frac{r}{p}\)
  • 方差:\(\text{V}[X]=\frac{r(1-p)}{p^2}\)

泊松分布

设随机变量\(X\)所有可能取的值为\(0,1,2,\dots\),取各个值的概率为 \[ P\{X=k\}=\frac{\lambda^ke^{-\lambda}}{k!},\quad \lambda>0,\quad k=0,1,2,\dots \]\(X\)是服从\(\lambda\)的泊松分布。特别地, \[\sum_{k=0}^\infty P\{X=k\}=\sum_{k=0}^\infty\frac{\lambda^ke^{-\lambda}}{k!}=e^{-\lambda}\sum_{k=0}^\infty\frac{\lambda^k}{k!}=e^{-\lambda}e^\lambda=1.\]

  • 分布律:\(P\{X=k\}=\frac{\lambda^ke^{-\lambda}}{k!},\quad k=0,1,\dots\)
  • 期望:\(\text{E}[X]=\lambda\)
  • 方差:\(\text{V}[X]=\lambda\)

当伯努利分布(二项分布)的试验次数\(n\)足够多,其分布近似于以\(\lambda=np\)为参数的泊松分布,即泊松定理:设\(\lambda>0\)是常数,\(n\)是任意正整数,设\(\lambda=np\),则对非负整数\(k\le n\),有 \[\lim_{n\to\infty}\binom{n}{k}p^k(1-p)^{n-k}=\frac{\lambda^ke^{-\lambda}}{k!}\]


连续型随机变量

如果对于随机变量\(X\)的分布函数\(F(x)\),存在非负函数\(f(x)\),使得对于任意实数\(x\),有 \[F(x)=P\{X\le x\}=\int_{-\infty}^x f(t)dt\] 则称\(X\)连续型随机变量,其中\(f(x)\)称为\(X\)概率密度函数

均匀分布

如果连续型随机变量\(X\)具有概率密度函数 \[\begin{equation} f(x) = \begin{cases} \frac{1}{b-a}, & a<x<b, \\ 0, & \text{else} \end{cases} \end{equation}\] 则称\(X\)在区间\((a,b)\)上的服从均匀分布。

  • 期望:\(\text{E}[X]=\frac{a+b}{2}\)
  • 方差:\(\text{V}[X]=\frac{(b-a)^2}{12}\)

指数分布

如果连续型随机变量\(X\)具有概率密度函数 \[\begin{equation} f(x) = \begin{cases} \frac{1}{\theta}e^{\frac{-x}{\theta}}, & x>0, \\ 0, & \text{else} \end{cases} \end{equation}\] 则称\(X\)是服从参数为\(\theta\)的指数分布。

  • 期望:\(\text{E}[X]=\theta\)
  • 方差:\(\text{V}[X]=\theta^2\)

正态(高斯)分布

如果连续型随机变量\(X\)具有概率密度函数 \[\begin{equation} f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},\quad -\infty<x<\infty, \end{equation}\] 其中\(\mu,\sigma~(\sigma>0)\)为常数,则称\(X\)是服从参数为\(\mu,\sigma\)的正态分布(高斯分布)。

  • 期望:\(\text{E}[X]=\mu\)
  • 方差:\(\text{V}[X]=\sigma^2\)

特别地,当\(\mu=0\)\(\sigma=1\)时称随机变量\(X\)服从标准正态分布


评论
  目录