数理统计的基本概念
总体与样本
理论分布&经验分布函数
理论分布
总体\(X\)的分布称为理论分布,总体\(X\)的分布函数称为理论分布函数
若总体\(X\)的分布函数为\(F(x)\),\((X_1, X_2,...,X_n)\)是总体\(X\)的容量为n的样本,则由样本独立同分布的性质知道\((X_1, X_2,...,X_n)\)的分布函数为 \[ F(x_1, x_2,...,x_n)=\prod_{i=1}^{n}F(x_i) \] 若总体\(X\)是离散型: \[ P(X_1=x_1,X_2=x_2,...,X_n=x_n)=\prod_{i=1}^{n}P(x_i) \] 若总体\(X\)是连续型: \[ f(x_1,x_2,...,x_n)=\prod_{i=1}^{n}f(x_i) \]
经验分布
设\((X_1, X_2,...,X_n)\)是总体\(X\)的容量为n的样本,将其观测值\((x_1,x_2,...,x_n)\)按从小到大的顺序排列为\(x_1^* \leq x_2^* \leq ... \leq x_n^*\),\(F_n(x)\)为\(X\)的经验分布函数: \[ F_n(x)=\left\{\begin{matrix} 0 &x < x_1^* \\ \frac{k}{n}& x_k^*\leq x<x_{k+1}^*(k=1,2,...,n-1)\\ 1& x\geq x_n^* \end{matrix}\right. \]
Glivenko定理
设总体\(X\)的理论分布函数为\(F(x)\),经验分布函数为\(F_n(x)\),则当\(n\to\infty\)时,\(F_n(x)\)以概率1关于x均匀收敛于\(F(x)\)
统计量&样本矩
设\((X_1, X_2,...,X_n)\)是取自总体\(X\)的样本,\(g(x_1,x_2,...,x_n)\)为一连续函数,且g中不含任何未知参数,则称\(g(x_1,x_2,...,x_n)\)是统计量\(g(X_1, X_2,...,X_n)\)的观测值
常用统计量:
样本均值: \[ \bar{X}=\frac{1}{n}\sum_{i=1}^nX_i \] 样本方差: \[ S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2 \] 样本k阶原点矩: \[ A_k=\frac{1}{n}\sum_{i=1}^nX_i^k \] 样本k阶中心矩: \[ B_k=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^k \] 中位数: \[ \widetilde{X} =\left\{\begin{matrix} X_{m+1}^* &n=2m+1 \\ \frac{1}{2}(X_{m}^*+X_{m+1}^*) &n=2m \end{matrix}\right. \] 极差: \[ R=X_n^*-X_1^* \]
抽样分布
\(\chi^2\)分布
设\((X_1, X_2,...,X_n)\)是正态总体\(N(0,1)\)的样本,称统计量\(\chi^2=X_1^2+ X_2^2+...+X_n^2\)所服从的分布为自由度是n的\(\chi^2\)分布,记为\(\chi^2\sim\chi^2(n)\)
性质:
\(\chi^2\sim\chi^2(x)\),则\(E\chi^2=n,D\chi^2=2n\)
\(\chi^2\)分布具有可加性,设\(\chi_1^2\sim\chi^2(n_1),\chi_2^2\sim\chi^2(n_2)\),且相互独立,则\(\chi_1^2+\chi_2^2\sim\chi^2(n_1+n_2)\)
上侧\(\alpha\)分位点\(\chi_{\alpha}^2(n)\),\(P(\chi^2>\chi_{\alpha}^2(n))=\alpha\)
当\(n\)充分大时,\(\sqrt{2\chi^2}\)近似地服从正态分布\(N(\sqrt{2n-1},1)\)
当\(n>45\)时,\(\chi_{\alpha}^2(n)\)可由近似公式\(\chi_{\alpha}^2(n)\approx\frac{1}{2}(u_{\alpha}+\sqrt{2n-1})^2\),其中\(\Phi(u_{\alpha})=1-\alpha\)
t分布
设\(X\sim N(0,1),Y\sim\chi^2(n)\),且相互独立,则称随机变量\(T=\frac{X}{\sqrt{Y/n}}\)所服从的分布为自由度是\(n\)的\(t\)分布,记为\(T\sim t(n)\)
性质:
图像单峰对称,重尾分布(取值更分散)
\[ n=1,f(x)=\frac{1}{\pi(1+x^2)} --柯西分布\\ n>1,E(T)=0 \]
上侧\(\alpha\)分位点\(t_{\alpha}(n)\),\(P(T>t_{\alpha}(n))=\alpha\)
当\(n>45\)时,\(t_{\alpha}\approx u_{\alpha}\)
F分布
设\(X\sim \chi^2(n_1),Y\sim\chi^2(n_2)\),且相互独立,则称随机变量\(F=\frac{X/n_1}{Y/n_2}\)所服从的分布为自由度是\((n_1,n_2)\)的F分布,记为\(F\sim F(n_1,n_2)\)
性质:
上侧\(\alpha\)分位点\(F_{\alpha}(n_1,n_2)\),\(P(F>F_{\alpha}(n_1,n_2))=\alpha\)
若\(F\sim F(n_1,n_2)\),则 \[ \frac{1}{F}\sim F(n_2,n_1)\\ F_{1-\alpha}(n_1,n_2)=\frac{1}{F_{\alpha}(n_2,n_1)} \]
正态总体的样本均值与样本方差的分布
设\((X_1, X_2,...,X_n)\)是取自正态总体\(N(\mu,\sigma^2)\)的样本,\(\bar{X}\)和\(S^2\)分别为样本均值和样本方差,则
\(\bar X\)和\(S^2\)独立
\[ \bar X\sim N(\mu,\frac{\sigma^2}{n}) \]
\[ (n-1)\frac{S^2}{\sigma^2}\sim \chi^2(n-1) \]
\[ T=\frac{\bar X-\mu}{S/\sqrt{n}}\sim t(n-1) \]
设\((X_1, X_2,...,X_n)\)和\((Y_1, Y_2,...,Y_n)\)分别是取自两个相互独立的正态总体\(N(\mu_1,\sigma_1^2)\)和\(N(\mu_2,\sigma_2^2)\)两个样本,其样本方差分别记为\(S_1^2\)和\(S_2^2\),则
\[ F=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1) \]
\[ \frac{\frac{1}{n_1}\sum\limits_{i=1}^{n_1}(\frac{X_i-\mu_1}{\sigma_1})^2}{\frac{1}{n_2}\sum\limits_{i=1}^{n_2}(\frac{X_i-\mu_2}{\sigma_2})^2}\sim F(n_1, n_2) \]
\[ T=\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{S_w}\sqrt{\frac{n_1n_2}{n_1+n_2}}\sim t(n_1+n_2-2)\\ 其中S_w=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2} \]