# 总体与样本

# 理论分布 & 经验分布函数

# 理论分布

总体XX 的分布称为理论分布,总体XX 的分布函数称为理论分布函数

若总体XX 的分布函数为F(x)F(x)(X1,X2,...,Xn)(X_1, X_2,...,X_n) 是总体XX 的容量为 n 的样本,则由样本独立同分布的性质知道(X1,X2,...,Xn)(X_1, X_2,...,X_n) 的分布函数为

F(x1,x2,...,xn)=i=1nF(xi)F(x_1, x_2,...,x_n)=\prod_{i=1}^{n}F(x_i)

若总体XX 是离散型:

P(X1=x1,X2=x2,...,Xn=xn)=i=1nP(xi)P(X_1=x_1,X_2=x_2,...,X_n=x_n)=\prod_{i=1}^{n}P(x_i)

若总体XX 是连续型:

f(x1,x2,...,xn)=i=1nf(xi)f(x_1,x_2,...,x_n)=\prod_{i=1}^{n}f(x_i)

# 经验分布

(X1,X2,...,Xn)(X_1, X_2,...,X_n) 是总体XX 的容量为 n 的样本,将其观测值(x1,x2,...,xn)(x_1,x_2,...,x_n) 按从小到大的顺序排列为x1x2...xnx_1^* \leq x_2^* \leq ... \leq x_n^*Fn(x)F_n(x)XX 的经验分布函数:

Fn(x)={0x<x1knxkx<xk+1(k=1,2,...,n1)1xxnF_n(x)=\left\{\begin{matrix} 0 &x < x_1^* \\ \frac{k}{n}& x_k^*\leq x<x_{k+1}^*(k=1,2,...,n-1)\\ 1& x\geq x_n^* \end{matrix}\right.

# Glivenko 定理

设总体XX 的理论分布函数为F(x)F(x),经验分布函数为Fn(x)F_n(x),则当nn\to\infty 时,Fn(x)F_n(x) 以概率 1 关于 x 均匀收敛于F(x)F(x)

# 统计量 & 样本矩

(X1,X2,...,Xn)(X_1, X_2,...,X_n) 是取自总体XX 的样本,g(x1,x2,...,xn)g(x_1,x_2,...,x_n) 为一连续函数,且 g 中不含任何未知参数,则称g(x1,x2,...,xn)g(x_1,x_2,...,x_n)统计量g(X1,X2,...,Xn)g(X_1, X_2,...,X_n) 的观测值

常用统计量

样本均值:

Xˉ=1ni=1nXi\bar{X}=\frac{1}{n}\sum_{i=1}^nX_i

样本方差:

S2=1n1i=1n(XiXˉ)2S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2

样本 k 阶原点矩:

Ak=1ni=1nXikA_k=\frac{1}{n}\sum_{i=1}^nX_i^k

样本 k 阶中心矩:

Bk=1ni=1n(XiXˉ)kB_k=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^k

中位数:

X~={Xm+1n=2m+112(Xm+Xm+1)n=2m\widetilde{X} =\left\{\begin{matrix} X_{m+1}^* &n=2m+1 \\ \frac{1}{2}(X_{m}^*+X_{m+1}^*) &n=2m \end{matrix}\right.

极差:

R=XnX1R=X_n^*-X_1^*

# 抽样分布

# χ2\chi^2 分布

(X1,X2,...,Xn)(X_1, X_2,...,X_n)正态总体N(0,1)N(0,1) 的样本,称统计量χ2=X12+X22+...+Xn2\chi^2=X_1^2+ X_2^2+...+X_n^2 所服从的分布为自由度是 nχ2\chi^2 分布,记为χ2χ2(n)\chi^2\sim\chi^2(n)

性质

  • χ2χ2(x)\chi^2\sim\chi^2(x),则Eχ2=n,Dχ2=2nE\chi^2=n,D\chi^2=2n

  • χ2\chi^2 分布具有可加性,设χ12χ2(n1),χ22χ2(n2)\chi_1^2\sim\chi^2(n_1),\chi_2^2\sim\chi^2(n_2),且相互独立,则χ12+χ22χ2(n1+n2)\chi_1^2+\chi_2^2\sim\chi^2(n_1+n_2)

  • 上侧α\alpha 分位点χα2(n)\chi_{\alpha}^2(n)P(χ2>χα2(n))=αP(\chi^2>\chi_{\alpha}^2(n))=\alpha

  • nn 充分大时,2χ2\sqrt{2\chi^2} 近似地服从正态分布N(2n1,1)N(\sqrt{2n-1},1)

    n>45n>45 时,χα2(n)\chi_{\alpha}^2(n) 可由近似公式χα2(n)12(uα+2n1)2\chi_{\alpha}^2(n)\approx\frac{1}{2}(u_{\alpha}+\sqrt{2n-1})^2,其中Φ(uα)=1α\Phi(u_{\alpha})=1-\alpha

# t 分布

XN(0,1),Yχ2(n)X\sim N(0,1),Y\sim\chi^2(n),且相互独立,则称随机变量T=XY/nT=\frac{X}{\sqrt{Y/n}} 所服从的分布为自由度是nntt 分布,记为Tt(n)T\sim t(n)

性质

  • 图像单峰对称,重尾分布(取值更分散)

  • n=1,f(x)=1π(1+x2)柯西分布n>1,E(T)=0n=1,f(x)=\frac{1}{\pi(1+x^2)} --柯西分布\\ n>1,E(T)=0

  • 上侧α\alpha 分位点tα(n)t_{\alpha}(n)P(T>tα(n))=αP(T>t_{\alpha}(n))=\alpha

    n>45n>45 时,t_{\alpha}\approx u_

# F 分布

Xχ2(n1),Yχ2(n2)X\sim \chi^2(n_1),Y\sim\chi^2(n_2),且相互独立,则称随机变量F=X/n1Y/n2F=\frac{X/n_1}{Y/n_2} 所服从的分布为自由度是(n1,n2)(n_1,n_2) 的 F 分布,记为FF(n1,n2)F\sim F(n_1,n_2)

性质

  • 上侧α\alpha 分位点Fα(n1,n2)F_{\alpha}(n_1,n_2)P(F>Fα(n1,n2))=αP(F>F_{\alpha}(n_1,n_2))=\alpha

  • FF(n1,n2)F\sim F(n_1,n_2),则

    1FF(n2,n1)F1α(n1,n2)=1Fα(n2,n1)\frac{1}{F}\sim F(n_2,n_1)\\ F_{1-\alpha}(n_1,n_2)=\frac{1}{F_{\alpha}(n_2,n_1)}

# 正态总体的样本均值与样本方差的分布

(X1,X2,...,Xn)(X_1, X_2,...,X_n) 是取自正态总体N(μ,σ2)N(\mu,\sigma^2) 的样本,Xˉ\bar{X}S2S^2 分别为样本均值和样本方差,则

  • Xˉ\bar XS2S^2 独立

  • XˉN(μ,σ2n)\bar X\sim N(\mu,\frac{\sigma^2}{n})

  • (n1)S2σ2χ2(n1)(n-1)\frac{S^2}{\sigma^2}\sim \chi^2(n-1)

  • T=XˉμS/nt(n1)T=\frac{\bar X-\mu}{S/\sqrt{n}}\sim t(n-1)

(X1,X2,...,Xn)(X_1, X_2,...,X_n)(Y1,Y2,...,Yn)(Y_1, Y_2,...,Y_n) 分别是取自两个相互独立的正态总体N(μ1,σ12)N(\mu_1,\sigma_1^2)N(μ2,σ22)N(\mu_2,\sigma_2^2) 两个样本,其样本方差分别记为S12S_1^2S22S_2^2,则

  • F=S12/σ12S22/σ22F(n11,n21)F=\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)

  • 1n1i=1n1(Xiμ1σ1)21n2i=1n2(Xiμ2σ2)2F(n1,n2)\frac{\frac{1}{n_1}\sum\limits_{i=1}^{n_1}(\frac{X_i-\mu_1}{\sigma_1})^2}{\frac{1}{n_2}\sum\limits_{i=1}^{n_2}(\frac{X_i-\mu_2}{\sigma_2})^2}\sim F(n_1, n_2)

  • T=(XˉYˉ)(μ1μ2)Swn1n2n1+n2t(n1+n22)其中Sw=(n11)S12+(n21)S22n1+n22T=\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{S_w}\sqrt{\frac{n_1n_2}{n_1+n_2}}\sim t(n_1+n_2-2)\\ 其中S_w=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}