【数学基础笔记】 分层抽样
分层抽样
在抽样之前, 先将总体 \(N\) 个单元划分成 \(L\) 个互不重复的子总体, 每个子总体称为层, 之后在每个层中分别独立地进行抽样, 这种抽样就是分层抽样, 所得到的样本称为分层样本.
如果每层都是简单随机抽样,则称这样的分层抽样为分层随机抽样,所得到的样本称为分层随机样本.
分层抽样的特点和作用
- 分层抽样可以提高参数估计的精度
- 分层抽样不仅能对总体参数进行估计,而且能对各层(子总体)参数进行估计
- 可以根据各层的不同特点采用不同的抽样方式
层的划分原则
- 尽可能使层内单元的差异小,层间单元的差异大,从而达到提高抽样估计精度的目的;
- 层内单元具有相同性质,通常按调查对象的不同类型进行划分. 这时,分层抽样能够对每一类的目标量进行估计;
- 既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的;
- 为了抽样组织实施的方便,通常按行政管理机构设置进行分层.
符号说明
设总体分为 \(L\) 层, 下标 \(h\) 表示层号(\(h = 1, 2, \cdots, L\)), 则关于第 \(h\) 层的记号如下:
层权: \(W_h = \frac{N_h}{N}\)
抽样比: \(f_h = \frac{n_h}{N_h}\)
总体 | 样本 | |
---|---|---|
均值 | \(\bar{Y}_h=\frac{1}{N_h} \sum_{i=1}^{N_h}Y_{hi}\) | \(\bar{y}_h=\frac{1}{n_h} \sum_{i=1}^{n_h}y_{hi}\) |
总值 | \(Y_h=\sum_{i=1}^{N_h}Y_{hi}\) | \(y_h=\sum_{i=1}^{n_h}y_{hi}\) |
方差 | \(S_h^2=\frac{1}{N_h-1}\sum_{i=1}^{N_h}(Y_{hi}-\bar{Y}_h)^2\) | \(s_h^2=\frac{1}{n_h-1}\sum_{i=1}^{n_h}(y_{hi}-\bar{y}_h)^2\) |
估计值
估计总体均值
总体均值公式如下
\[ \bar{Y} = \frac{1}{N} \sum_{h=1}^{L} \sum_{j=1}^{N_h} Y_{hj} = \sum_{h=1}^{L} \frac{N_h}{N} \frac{1}{N_h} \sum_{j=1}^{N_h} Y_{hj} = \sum_{h=1}^{L} W_h \bar{Y}_h \]
简单估计: 在分层抽样中, 对总体均值 \(\bar{Y}\) 的估计是通过对各层总体均值 \(\bar{Y}_h\) 的估计, 按层权 \(W_h\) 加权平均得到的, 即 \(\hat{\bar{Y}}_{st} = \sum_{h=1}^L W_h \hat{\bar{Y}}_h\)
如果采用分层随机样本, 则用简单估计总体均值为
\[ \bar{y}_{st} = \sum_{h=1}^{L} W_h \bar{y}_h = \frac{1}{N} \sum_{h=1}^{L} N_h \bar{y}_h \]
估计量性质
性质一: 对于一般的分层抽样,如果 \(\hat{\bar{Y}}_{h}\) 是 \(\bar{Y}_{h}\) 的无偏估计(\(h=1,2,\cdots,L\)),则 \(\hat{\bar{Y}}_{st}\) 是 \(\bar{Y}\) 的无偏估计. \(\hat{\bar{Y}}_{st}\) 的方差为:
\[ V(\hat{\bar{Y}}_{st}) = \sum_{h=1}^{L} W_h^2 V(\hat{\bar{Y}}_{h}) \]
值得强调的是,在分层抽样中只要对各层估计是无偏的,则对总体的 估计也是无偏的.因此,各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对总体均值的推断也是无偏的.
性质二: 对于分层随机抽样, \(\bar{y}_{st}\) 是 \(\bar{Y}\) 的无偏估计, \(\bar{y}_{st}\) 的方差为:
\[ V(\bar{y}_{st}) = \sum_{h=1}^{L} W_h^2 V(\hat{\bar{y}}_{h}) = \sum_{h=1}^{L} W_h^2 \frac{1-f_n}{n_h} S_h^2 \]
性质三: 对于分层随机抽样,\(V(\bar{y}_{st})\) 的一个无偏估计为:
\[ v(\bar{y}_{st}) = \sum_{h=1}^{L} W_h^2 v(\hat{\bar{y}}_{h}) = \sum_{h=1}^{L} W_h^2 \frac{1-f_n}{n_h} s_h^2 \]
计算示例
针对分层抽样最终均值的(95%)置信区间为
\[ \begin{aligned} &=\bar{y} \pm 1.96 \times \sqrt{v(\bar{y})}] \\ &= \sum_{h=1}^L \bar{y}_h \pm 1.96 \times \sqrt{v(\bar{y})} \\ &= \sum_{h=1}^L \sum_{i=1}^{n_h} y_{hi} \pm 1.96 \times \sqrt{\sum_{h=1}^L W_h^2 \frac{1-f_n}{n_h} s_h^2} \end{aligned} \]
Z | |
---|---|
80% | 1.282 |
85% | 1.440 |
90% | 1.645 |
95% | 1.960 |
99% | 2.576 |
99.5% | 2.807 |
99.9% | 3.291 |
估计总体总值
总体总值公式如下
\[ \hat{Y} = N \hat{\bar{Y}}_{st} = \sum_{h=1}^L N_h \hat{\bar{Y}}_h \]
如果采用分层随机样本, 则用简单估计总体均值为
\[ \hat{Y} = N \bar{y}_{st} = \sum_{h=1}^{L} N_h \bar{y}_h \]
估计量的性质
性质四: 对于一般的分层抽样,如果 \(\hat{\bar{Y}}_{st}\) 是 \(\bar{Y}\) 的无偏估计(\(h=1,2,\cdots,L\)),则 \(\hat{Y}\) 是 \(Y\) 的无偏估计. \(\hat{Y}\) 的方差为:
\[ V(\hat{Y}) = N^2 V(\hat{\bar{Y}}_{st}) = \sum_{h=1}^L N_h^2 V(\hat{Y}_h) \]
值得强调的是,在分层抽样中只要对各层估计是无偏的,则对总体的 估计也是无偏的.因此,各层可以采用不同的抽样方法,只要相应的估计量是无偏的,则对总体均值的推断也是无偏的.
性质五: 对于分层随机抽样, \(\hat{y}\) 的方差为:
\[ V(\hat{Y}) = N^2 V(\bar{y}_{st}) = \sum_{h=1}^L N_h^2 V(\bar{y}_{h}) = \sum_{h=1}^L N_h^2 \frac{1-f_h}{n_h} S_h^2 \]
性质六: 对于分层随机抽样,\(V(\hat{y}_{h})\) 的一个无偏估计为:
\[ V(\hat{y}) = N^2 V(\bar{y}_{st}) = \sum_{h=1}^L N_h^2 v(\bar{y}_{h}) = \sum_{h=1}^L N_h^2 \frac{1-f_h}{n_h} s_h^2 \]
估计总体比例
设层总体比例为 \(P_h = \frac{A_h}{N_h}\), \(Q_h=1-P_h\), 层样本比例为 \(p_h=\frac{a_h}{n_h}\), \(q_h=1-p_h\).其中, \(A_h\) 与 \(a_h\) 是第 \(h\) 层总体及样本中具有所考虑特征的单元数.总体比例 \(P\) 的估计为
\[ p_{st} = \sum_{h=1}^L W_h p_h \]
估计量性质
定义
\[ Y_i = \begin{cases} 1, \text{第 i 个单位具有所考虑的特征} \\ 0, \text{其他} \end{cases} \]
则
\[ \bar{Y} = \frac{1}{N} \sum_{i=1}^{N} Y_i = \frac{A}{N} = P \]
其中, \(A\) 是总体具有所偶考虑特征的单元数
上述情况对总体比例 \(P\) 的估计可看成对总体均值 \(\bar{Y}\) 的估计, 这时 \(p_{st}\) 与 \(\hat{\bar{Y}}_{st}\) 具有同样的性质.
性质七: 对于一般的分层抽样,如果 \(p_h\) 是 \(P_h\) 的无偏估计(\(h=1,2,\cdots,L\)),则 \(p_{st}\) 是 \(P\) 的无偏估计. \(p_{st}\) 的方差为:
\[ V(p_{st}) = \sum_{h=1}^{L} W_h^2 V(p_h) \]
性质八: 对于分层随机抽样, \(p_{st}\)是 \(P\) 的无偏估计, 则:
\[ V(p_{st}) \thickapprox \sum_{h=1}^L W_h^2(1-f_h) \frac{P_h Q_h}{n_h} \]
性质九: 对于分层随机抽样,\(V(p_{st})\) 的一个无偏估计为:
\[ v(p_{st}) \thickapprox \sum_{h=1}^L W_h^2(1-f_h)\frac{p_hq_h}{n_h-1} \]
分层抽样分类
分层比例抽样
分层比例抽样是指按各个层的单位数量占调查总体单位数量的比例分配各层的样本数量的.在分层抽样中,采用分层比例抽样可以提高样本的代表性,及对总体数量指标的估计值的确定,避免出现简单随机抽样中的集中于某些特性或遗漏掉某些特性.
\[ n_h = n \frac{N_h}{N} \]
分层最优抽样
分层最佳抽样又称"非比例抽样",是根据各层基本单位标准差的大小,来确定各层样本数目的抽样方法.
在各层基本单位之间的差异过分悬殊、某些层的重要性大于其他层的情况下,采取非比例抽样时,在这些层抽取的样本数就多;反之,抽取的样本数就少. 如果采取同时兼顾层的大小和层内差异程度的大小来抽样,则有利于提高综合样本对总体全貌的代表性,并可以提高样本的可信程度.
\[ n_h = n \frac{N_h S_h}{\sum N_h S_h} \]
样本量的分配
比例分配
此时各层的样本量为
\[ n_h = n \times \frac{N_h}{N} = n \times W_h \]
由此可推断
总体均值:
\[ \begin{aligned} \bar{y}_{prop} &= \sum_{h=1}^{L} W_h \bar{y}_h \\ &= \sum_{h=1}^{L} \frac{n_h}{n} \bar{y}_h \\ &= \sum_{h=1}^{L} \frac{n_h}{n} \frac{1}{n_h} \sum_{i=1}^{n_h} y_{hi} \\ &= \frac{1}{n} \sum_{h=1}^{L} \sum_{i=1}^{n_h} y_{hi} \\ &= \frac{1}{n} \sum_{i=1}^{n} y_{i} \\ &= \bar{y} \\ \end{aligned} \]
总体均值估计量方差
\[ \begin{aligned} V(\bar{y}_{prop}) &=\sum_{h=1}^L W_h^2 V(\bar{y}_h) \\ &=\sum_{h=1}^L W_h \frac{n_h}{n} \frac{1-f_n}{n_h} s_h^2 \\ &=\frac{1-f}{n} \sum_{h=1}^{L} W_h s_h^2 \end{aligned} \]
总体比例
\[ p_{prop} = p = \frac{1}{n} \sum_{h=1}^{L} a_h \]
总体比例估计量方差
\[ \begin{aligned} V(p_{prop}) &=\sum_{h=1}^L W_h (1-f_h) \frac{p_h q_h}{n_h-1} \\ &\approx \frac{1-f}{n} \sum_{h=1}^{L} W_h p_h q_h \end{aligned} \]
最优分配
最优分配是指在分层随机抽样中,如何将样本量分配到各层,满足下列条件之一:
- 在总费用给定的条件下,估计量的方差达到最小;
- 在给定估计量方差的条件下,总费用最小,
能满足这样条件的样本量分配就是最优分配.
最优分配订立
考虑简单线性费用函数,总费用
\[ C = c_0 + \sum_{h=1}^L c_h n_h \]
\(c_0\) 是固定费用, \(c_h\) 是在第 \(h\) 层中抽取一个单元的平均费用.则按最优分配原则, 在简单线性费用函数下, 最优分配是:
\[ \frac{n_h}{n} = \frac{\frac{W_h S_h}{\sqrt{c_h}}}{\sum_{h=1}^L \frac{W_h S_h}{\sqrt{c_h}}} = \frac{\frac{N_h S_h}{\sqrt{c_h}}}{\sum_{h=1}^L \frac{N_h S_h}{\sqrt{c_h}}} \]
由公式可得, 如果某层单元数较多, 内部差异较大, 费用比较省, 则对该层多分配.
Neyman(尼曼)分配
对于分层随机样本, 如果每层费用相同, 可简化为
\[ n_j = n \frac{W_h S_h}{\sum_{h=1}^L W_h S_h} = n \frac{N_h S_h}{\sum_{h=1}^L N_h S_h} \]
这种分配成为 Neyman 分布. 这时 \(V(\bar{y}_{st})\) 达到最小
\[ V_{min}(\bar{y}_{st}) = \frac{1}{n} (\sum_{h=1}^L W_h S_h)^2 - \frac{1}{N} \sum_{h=1}^L W_h S_h^2 \]
样本量的确定
总体均值
当 \(w_h\) 已经选定,于是方差 \(V\)
\[ \begin{aligned} V(\bar{y}_{st}) &=\sum_{h=1}^L W_h^2 \frac{1-f_h}{n_h} S_h^2 \\ &=\sum_{h=1}^L \frac{W_h^2}{n_h} S_h^2 - \sum_{h=1}^{L} \frac{W_h^2}{N_h} S_h^2 \end{aligned} \]
由此公式推导
\[ n = \frac{\sum \frac{W_h^2 S_h^2}{w_h}}{V + \frac{\sum W_h S_h^2}{N}} \]
当估计精度以绝对误差或相对误差给出, 则
\[ V = (\frac{d}{t})^2 = (\frac{r\bar{Y}}{t})^2 \]
按比例分配
由于 \(w_h = W_h\) 可知
\[ n = \frac{\sum W_h S_h^2}{V + \frac{\sum W_h S_h^2}{N}} \]
Neyman分配
由于 \(w_h = \frac{W_h S_h}{\sum W_h S_h}\) 可知
\[ n = \frac{(\sum W_h S_h)^2}{V + \frac{\sum W_h S_h^2}{N}} \]
总体比例
当方差 \(V\) 给定时, 如果 \(N_h\) 都比较大, 使得 \(N_h - 1 \approx N_h\)
\[ n = \frac{\sum W_h P_h Q_h}{V + \frac{\sum W_h P_h Q_h}{N}} \]
分层抽样效果
分层等比例随机抽样与总体随机抽样对比
在相同样本量下, 与总体均值估计量进行比较
总体均值简单随机抽样的方差
\[ V_{srs} = \frac{1-f}{n} S^2 \]
按比例分层抽样随机抽样相应估计量方差
\[ V_{prop} = \frac{1-f}{n} \sum_{h-1}^L W_h S_h^2 \]
根据总体单元指标的平方和分解可得
\[ S^2 = \sum_{h=1}^L \frac{N_h-1}{N-1}S_h^2 + \sum_{h=1}^L \frac{N_h}{N-1}(\bar{Y}_n - \bar{Y})^2 \]
如果各层 \(N_h\) 都比较大, 则
\[ \frac{N_h}{N-1} \approx \frac{N_h-1}{N-1}\approx\frac{N_h}{N}=W \]
因此
\[ S^2 \approx \sum_{h=1}^L \frac{N_h-1}{N-1}S_h^2 + \sum_{h=1}^L \frac{N_h}{N-1}(\bar{Y}_h - \bar{Y})^2 \]
最后可得
\[ V_{srs} \approx V_{prop} + \frac{1-f}{n} \sum_{h=1}^L W_h (\bar{Y}_h - \bar{Y})^2 \geq V_{prop} \]
结论: 各层平均值 \(\bar{Y}_h\) 的差异愈大,分层随机抽样与简单随机抽样 估计量的方差差值就愈大,分层的效果就愈好; 反之,若各层平均值都相等,则分层与不分层效果相同.
分层等量随机抽样与分层等比例随机抽样对比
针对总量均值的分析对比
\[ V = \sum_{h=1}^L W_h^2 \frac{S_h^2}{n_h} \]
因此分层等量随机抽样与分层等比例随机抽样方差之差为
\[ V_a - V_b = \frac{1}{n} \sum_{h=1}^L W_h S_h^2 (hW_h-1) \]
由此可知样本差较大的层,该层总量也越小,此时将会等量比等比例抽样效果更好(极端情况, 可能更加接近于尼曼抽样)
最小样本量
\[ n \approx \frac{(z_{\frac{\alpha}{2}})^2 \sigma^2}{E^2} \]
- \(n\): 样本总量
- \(\sigma^2\): 方差, 抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多
- \(E\): 抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为1/2,抽样量需要增加为4倍
- \(z_{\frac{\alpha}{2}}\): 可靠性系数,即置信度
利用相对抽样误差 \(h=\frac{E}{y}\) 以及变异系数 \(C=\frac{\sigma}{y}\) 可得
\[ n \approx \frac{(Z_{\frac{\alpha}{2}})^2 C^2}{h^2} \]
如果是基于胜出率,支持率等: 分值为0/1状态分布,公式拟合为
\[ n \approx \frac{(Z_{\frac{\alpha}{2}})^2 \pi (1-\pi)}{E^2} \]
\(\pi\) 为按照经验得出的最后比例,在未知时 \(\pi\) 可取50%,待算出结果后再重新拟合,比例越悬殊需要的样本量越少.
90.0% | 95.0% | 98.0% | 99.0% | 99.8% | 99.9% | |
---|---|---|---|---|---|---|
t | 1.645 | 1.96 | 2.327 | 2.576 | 3.091 | 3.291 |
1%极限样本量 | 6765 | 9604 | 13537 | 16589 | 23886 | 27077 |
2%极限样本量 | 1691 | 2401 | 3384 | 4147 | 5971 | 6769 |
3%极限样本量 | 752 | 1067 | 1504 | 1843 | 2654 | 3009 |
4%极限样本量 | 423 | 600 | 846 | 1037 | 1493 | 1692 |