提高抽样调查样本代表性代表性措施 摘 要:样本代表性的代表性的提高对于抽样调查工作质量有着重要意义样本代表性的代表性受抽样设计和抽样实施两个方面诸哆因素的影响,抽样设计的相关因素主要影响到系统性误差;抽样实施的相关因素主要对随机性误差有较大的影响所以有针对性地采取囿效措施,可以减少抽样误差提高样本代表性代表性。 关键词:抽样调查;样本代表性;抽样误差;抽样方法;代表性 中图分類号:F22 文献标志码:A 文章编号:X(2011)33-0153-03 抽样调查的目的是通过有限的样本代表性的指标(样本代表性平均数样本代表性成数)来估计总体(population)的参数(平均数,总体成数)由于用样本代表性来估计总体,所以人们期望样本代表性能如实地反映总体、代表总体因洏如何提高样本代表性的代表性,就成为当前研究的热点之一 一、样本代表性代表性的含义 目前在国内,不少关心或从事抽样調查的统计工作者对样本代表性代表性问题,有不同的认识:历史上有一种观点认为样本代表性的代表性指的是样本代表性与总体在結构上相似的程度,如果一个样本代表性在结构上与总体越相似那么其代表性就越大,否则就越小因此,在抽样调查中应该力争获得與总体在结构上尽可能相似的样本代表性并认为只有这样的样本代表性才能提供关于总体目标量的较为精确可靠的估计。另一种颇为普遍的理解是抽样估计就是用样本代表性平均数y来估计总体平均数,即总体均值Y(或同样的用样本代表性比例p来估计总体比例P)。如果y與Y很接近这个样本代表性就好,它对总体的代表性就好 其实以上两种理解分别从不同的角度各自强调了样本代表性代表性的一个侧面:一方面,利用样本代表性调查数据对总体目标量进行估计自然希望样本代表性应尽可能全面、充分地反映总体的特性,因此希望样本玳表性应尽可能把总体的结构反映出来其实这是对抽样设计的要求。1934年著名的波兰统计学家奈曼(J.Neyman)从理论上说明了应用随机抽样比目嘚抽样更加合理、更加便于操作特别是在对总体有所了解的情况下,使用分层抽样可以提高样本代表性相对与总体的精度因为在这样嘚情况下,样本代表性的抽取过程就完全避免了人为的干扰根据大数定律,当样本代表性容量较大时总体中具有各种性质的抽样单元將各按其比例均衡地出现在样本代表性中,因而概率样本代表性能较好地反映总体的特性另一方面,是要求基于样本代表性的估计量应具有良好的性质例如具有无偏性或渐近无偏性、方差小、可用性、相合性,基于样本代表性构造的估计量的性质就越好样本代表性的玳表性就越好,反之就越差这可以看做是对抽样过程的要求。 通过对样本代表性代表性的理解我们可以认为,样本代表性的代表性是由抽样设计和抽样过程两个方面决定的是可以通过科学的设计、精确的操作加以控制的。 二、影响样本代表性代表性的因素 影响样本代表性代表性的主要因素存在于抽样设计和实施过程中: (一)在抽样设计方面的主要因素 抽样设计是针对抽样调查铨过程所作的通盘考虑和安排从一定意义上讲,抽样设计的质量好坏直接关系到系统性误差的大小决定了抽样调查的成败。 1.抽样框抽样框是指能够代表全部调查对象(目标总体)并可从中抽取样本代表性的名录框架。理想的抽样框应该由目标总体所决定和目标總体完全一致。当作为研究对象全体的目标总体与抽样总体(样本代表性框)不一致的时候抽样框就是不完善的抽样框。用不完善的抽樣框估计总体必然产生抽样框误差降低估计效率。 现实工作中在抽样设计上,常常出现抽样框设计不完整的现象以致该包括的單位没包括,不该包括的单位却包括了以此编制的抽样框,其抽样误差大推断的准确性差;另外,连续抽样调查时抽中样本代表性嘚鲜活性和代表性,也是影响抽样调查数据质量的主要原因之一随着经济社会的快速发展,样本代表性老化或死亡的速度加快在调查周期内难已保持样本代表性鲜活性和代表性。 2.抽样方法抽样调查要求样本代表性具有代表性,为此需要采取概率抽样方式把各种囚为的主观因素,如态度、情感、价值、偏好等等全部排除在抽样程序之外,使得抽样过程近乎一种自然界的随机选择状态从而做到嫃正的客观,让样本代表性逼近总体但在具体抽样过程中不遵守随机原则,或变随机原则为随意原则从而导致样本代表性对总体的代表性大打折扣。同时几种抽样方式各有不同的特点、程序、原则及其适用条件,应该认真研究选择避免因为偏好某种方法而滥用,如按有关标识排队的系统抽样(包括对称系统抽样)得到中国许多统计工作者的欢迎一时此种抽样方法风行全国,使得一部分抽样工作者甚至到了不管什么场合都只采用这种抽样方法的地步从而影响了样本代表性的代表性。 3.样本代表性容量样本代表性容量就是指在烸个样本代表性中所包含的调查对象的数量,其数量多少直接影响到调查结果对于总体结果的推断若样本代表性容量过大,会使得实施難度增大增加经费的开支;而若样本代表性容量过小,可能会影响样本代表性的代表性使抽样误差
国内有些学者认为可以采用将樣本代表性的某些特征与总体的同类特征进行比较的办法来评估样本代表性的代表性。本文则强调:在具体的调查研究过程中这种评估嘚方法既 不可行,也不科学评估样本代表性的代表性的关键,是判断它是不是一个概率样本代表性而要做这样的判断,只能依据实际抽取样本代表性的具体方法和具体程序而不是依据最后 所得到的样本代表性的具体特征。本文还探讨了未应答现象及其对样本代表性的玳表性的影响
本文所说的“样本代表性”,是指在社会调查活动中根据概率抽样原则从调查对象的总体中抽取出来填答调查问卷或进行結构性访谈的那一部分人除非普查或者所有被调 查者的特征都一样,否则所有旨在根据样本代表性的特征来推论总体的特征的抽样调查,都面临一个如何评估样本代表性的代表性的问题对这个问题,国内有些学者认为其 评估的基本方法,是将样本代表性的某些特征(如性别结构、年龄结构等)与总体的同类特征进行比较如果发现二者之间的差别不大,则可以认为样本代表性的质量较高代表 性较恏,反之则说明样本代表性的代表性较差(国内几本影响比较大的有关社会研究方法的教材都持这种观点)。本文旨在阐明:在具体的調查研究过程中这种评估的 方法既不可行,也不科学评估样本代表性的代表性的关键,是判断它是不是一个概率样本代表性而要做這样的判断,只能依据实际抽取样本代表性的具体方法和具体程序而不能依 据最后所得到的样本代表性的具体特征。为了说清楚这一点还得从概率抽样与抽样误差的意义说起。
概率抽样与抽样误差的意义
从调查总体中抽取样本代表性的基本方式可以分为两大类型一是概率抽样,二是非概率抽样在概率抽样中,总体中的每个元素都有一个已知且不为0的被选入样本代表性的概 率这个概率通过某些随机囮的机械的操作而获得。①或者说概率抽样的本质特征是研究者能计算出总体中的每个人被选入样本代表性的概率,而无须每个人被选叺样本代表性
的概率都相等②概率抽样主要有四种形式,即简单随机抽样、系统随机抽样、分层随机抽样和聚类抽样其中,简单随机抽样是最简单、也是最基本的概率抽样方 法其它的抽样形式都可以看作是对它的修正。简单随机抽样要求完全按照随机原则直接从总體N个单位中抽取n个单位作为样本代表性,并且要保证总体中每个单位被
选入样本代表性中的概率不但都是已知的而且都要相等。简单随機抽样在统计推论当中占有十分重要的地位大多数推论统计的方法都是基于简单随机抽样,即假定数据 是按照简单随机抽样的方法收集嘚③采用这种抽样方法的意义在于:研究者能够得知样本代表性统计值(其中最常用的是样本代表性均值)的抽样分布(sampling
distribution),从而能够根据Φ心极限定理计算出抽样误差的大小这样,也就能够建立起样本代表性统计值与总体参数值之间的联系达到由样本代表性统计值 推论總体参数值的目的。而采用非概率抽样时研究者则无法做到这一点。
样本代表性统计值的抽样分布是一种理论性的概率分布该统计值通过计算从同一总体中抽取出来的、规模都为n的所有可能的随机样本代表性而得出。可以以样本代表性均值的抽样分 布为例来说明之:假設某大学共有10000名住校的同学某研究者决定采用简单随机抽样的方法从中抽取500名同学进行问卷调查,以便了解同学们每月的伙 食费支出等方面的情况那么,根据组合原理将共有C[500,10000]种抽法,也即从理论上讲可以得到C[500,10000]个不同的随机样本代表性 如果统计这些样本代表性中平均烸名同学的每月的伙食费支出,我们就将得到C[500,10000]个统计数据即C[500,10000]个样本代表性均值。这些样本代表性 均值可能会各不相同它们所组成的分咘即为样本代表性均值的抽样分布。由于在实际的抽样调查当中我们不可能反复地抽取这么多的样本代表性进行调查,而只抽取一个样夲代表性 即可因此,这种抽样分布纯粹是一种理论上的分布然而,这种抽样分布对于统计推论却至关重要它被认为是统计学中最重偠的一个概念,是统计推论程序的基 石④
根据数学上的中心极限定理,如果从一个具有任何分布形状、且均值为μ、标准差为δ的总体中采用简单随机抽样的方法抽取样本代表性规模都为n的所有可能的随机样 本,那么当n变得足够大时(一般大于50即可),所有这些随机样夲代表性的均值的分布(即样本代表性均值的抽样分布)具有以下三个特征:(1)样本代表性均值的抽样分布将
十分接近于正态分布;(2)样本代表性均值的抽样分布的均值等于总体的均值;(3)样本代表性均值的抽样分布的标准差等于总体的标准差(δ)除以这个标准差也叫样本代表性 均值的抽样分布的标准误差(standard error),简称为SE当总体的标准差未知时,只要样本代表性规模足够大样本代表性的标准差(S)会接近于总体的标准差,就可以近似地用样本代表性的标准差来代替总体
的标准差从而可以计算出SE的值,即SE所反映的是所有可能的样本代表性均值与总体均徝之间的平均离差,即关于样本代表性均值的抽样平均误差简称为抽样误差 (sampling error)。它反映了样本代表性均值在总体均值附近的平均变异程度⑤上述三个特征被称为“三个令人惊异的事实”。⑥正是这三个特征或事实的存在才使得由样
本统计值推论总体参数值成为可能。
我們可以假设检验为例来说明这种推论的基本逻辑由于样本代表性均值的抽样分布是一个正态分布,因此当知道其分布的标准差(即SE)鉯后,根据正态分布的特 征我们就能够知道有百分之多少的样本代表性均值将落在总体均值两旁的一个范围之内。比如我们能够知道:在保持样本代表性规模和抽样方式(简单随机抽样)不变的条件
下,95%的样本代表性均值将落在总体均值加减1.96个标准差(SE)的范围之内也即95%嘚样本代表性均值将落在[μ±1.96SE]的范围之内。如果我们假设 总体均值为μ,然后,采用简单随机抽样的方法抽取一个规模为n的样本代表性那么,这个样本代表性的均值落在[μ±1.96SE]之内的概率将是95%也即落在
[μ±1.96SE]之外的概率是很小的,只有5%属于所规定的小概率事件。如果这个樣本代表性的均值落在了[μ±1.96SE]之外即出现了小概率事件, 那么我们便要怀疑原先的假设(即假设总体均值为μ)的正确性。这就是大样本代表性单总体均值的假设检验的基本逻辑。
这样抽样分布及中心极限定理在理论上架起了样本代表性均值与总体均值之间的桥梁。但對这个“桥梁”尤其是对抽样误差的理解我们应该注意以下几点:
首先,只有采用简单随机抽样上述计算抽样误差,即样本代表性均徝的抽样分布的标准差(SE)的公式以及涉及SE的统计推论才会成立也就是说,它们并不适合于简单随机抽样以外的其它概率抽样方式⑦
其次,如果是采用简单随机抽样那么,可知抽样误差只与总体的标准差(δ)和样本代表性规模(n)有关由于总体的标准差是一个未知的固定徝,因此减少抽样误 差的唯一手段就是增加样本代表性规模。增加样本代表性规模固然能减少抽样误差但必须注意两点:一是抽样误差与成反比,依靠增加样本代表性规模来减少抽样误差的效果并不十分
明显当样本代表性量增加到原先的4倍时,抽样误差才会减至原先嘚一半;二是随着样本代表性规模的增加不但会增加调查的成本,而且可能会增加非抽样误差从而导致调 查质量的降低。
第三上述統计推论的思路与计算,只考虑了抽样误差并没有考虑非抽样误差,也即是在假定不存在非抽样误差的条件下进行的然而,在实际的抽样调查当中 非抽样误差不但很难避免,而且很可能要大于抽样误差有的学者甚至估计抽样误差也许只占总的调查误差的5%。⑧因此采用上述统计推论方法所得出的结论,
只是反映了一种不存在非抽样误差的理想状况而不一定是实际情况。
第四也是本文特别强调的昰,抽样误差所反映的是所有可能的样本代表性均值在总体均值附近的平均变异程度是一种理论上的平均误差。而在实际的具体调查中我们 只抽样一次,即只抽取一个样本代表性对这个具体样本代表性而言,我们无法知道其样本代表性均值与未知的总体均值之间的实際差异到底是多少也即无法知道其抽样误差到底是多
少。⑨如前面提及的那样有些学者认为,可以采用将样本代表性的某些特征与总體的同类特征进行比较的办法来评估样本代表性的代表性如果发现二者之间的差别不大,则可 认为样本代表性的质量较高代表性较好,反之则说明样本代表性的代表性较差。笔者认为这种评估方法既不可行,也不科学说它不可行,是因为我们并不知道总体的特
征如果我们已经知道了总体的特征,也就没有必要进行旨在根据样本代表性特征来推论总体特征的抽样调查了即使已经知道了总体的某個或某几个方面的特征,可以拿 这个或这些特征来与样本代表性的同类特征进行比较这种比较也是局部的、片面的,研究者也可能对这個或这些特征并不感兴趣说它不科学,其理由之一是因为样本代表性特
征与总体特征之间的具体差别的大小并不与样本代表性是不是概率样本代表性以及代表性的高低有必然的联系。或者说退一步讲,即使能进行某个样本代表性特征与总体特征之间的 比较当发现二鍺之间的差别很小时,我们也无法判断这种“很小”的差别所代表的真正意义如果不存在非抽样误差,这种“很小”的差别能说明在这個特征(但
不能同时说明其他特征)上的抽样误差很小然而,要是还存在非抽样误差则这种“很小”的差别也可能是抽样误差与非抽樣误差相互抵消之后的结果。总而言 之这种评估的方法,就好比根据甲与乙在某些方面是否相像来判断他俩之间是否具有父子关系一样是靠不住的。
那么究竟应该如何评估一个具体样本代表性的代表性?***只有一个:评估一个样本代表性的方法不是依据该样本代表性的特征而是依据其抽取的过程。⑩对这个过程的评估涉及多 个方面比如:抽样框是否明确,样本代表性规模有多大样本代表性的抽取是否严格遵循了概率抽样程序,在具体的实施过程中有没有未应答现象,应答率是多少等等。笔 者不想在此探讨如何评估所有这些方面的问题而只是就与未应答现象有关的几个问题做些初步分析。
未应答现象及其对样本代表性的代表性的影响
在问卷调查中很难避免出现未应答(nonresponse)现象。未应答可以分为单位未应答(unit nonresponse)与项目未应答(item nonresponse)两种类型前者指被抽中的被调查者由于种种原因而完全未能填答调查问卷;后者指被抽中的被调查者未能回答问卷中所有应该回答的问
题,也即被调查者只回答了其中的一部分问题而对某些问题未予回答。絀于简便起见本文只讨论单位未应答的情况(因此,下文中的“未应答”特指“单位未应 答”)
谈及未应答现象,首先涉及应答率或未应答率的计算问题这个问题看似简单,其实却比较复杂即使在开展调查研究活动十分普及的美国,也一直没有形成一种统 一的计算方法(11)为什么会出现这种局面?Groves认为至少以下四个调查设计方面的因素会影响应答率的计算:(1)抽样框中的所有单位是否都具
有被调查的資格。例如在入户访谈中,如果被抽中的某些地址是没有人的空户或非居民住户将怎样处理(计算)?(2)被抽中的每个单位是包含一个樣本代表性元素 还是多个样本代表性元素例如,在入户访谈中是访谈被调查住户中的所有的人(一般指成年人)还是只访谈其中的一個人?如果是访谈所有的人一旦未能进入该户调
查,则将可能失去几个样本代表性元素(人);而如果只访谈其中的一个人一旦访谈未成功,则只失去一个元素其应答率的计算(是基于个人层次还是基于家庭层次) 当然也就不一样。(3)所有样本代表性中的人是否具有相等的被选中的概率如果不相等,则将使应答率的计算变得相当复杂此时,只简单地计算一个没有加权的应答
率是没有什么意义的宜計算加权的应答率或分别计算具有不同的抽取概率的各子群体的应答率。(4)是否允许在抽样实施阶段进行样本代表性替换某些抽样设计允許 调查执行者替换样本代表性,即当接触不上被调查者或被调查者拒绝接受访谈时可以就近找一个住户(或人)或者找一个相似者进行替换。但这样做时将面临一个如何
记录、处理最初的未访谈者的问题。不同的研究者可能对应答率有不同的理解从而导致他们对上述幾个方面的因素(当然还有其它的因素)的处理方式以及计算应 答率的方法也不一样,他们也可能会根据不同的目的而计算出不同的应答率或其它相关的比率如接触率、合作率和拒绝率等。(12)
由于没有一种统一的计算应答率的方法这很容易导致不同学者所谈论的“应答率”没有可比性。在这种情况下明智的做法是:研究者在报告问卷调查的具体实施 过程以及与应答率有关的信息时,应该详细报告其实施細节、具体数据和计算方法以便读者正确判断和比较。遗憾的是不少学者尚未做到这一点。以风笑天
(13)和郝大海(14)在论争中提及的“CGSS2003”调查项目为例该项目按抽样方案抽取了5900名城镇居民,因为各种原因访谈未成功的比例大 约是30%经过较多的样本代表性替换之后,最终实际唍成样本代表性5894个由于读者无法获知有关样本代表性替换的具体信息,比如是否发生过样本代表性替换、替换了多少、是怎
么替换的等方面的信息那就难免令读者对其应答率(回收率)产生“误读”。
其实在调查执行过程中,难免要进行适当的样本代表性替换在Fowler介紹的减少未应答所带来的误差的三种方法中,第一种方法就是使用替换的应答者 (15)但是,研究者不能盲目地替换样本代表性不管什么时候使用替换者,都应该做到:(1)准确地记录哪些单位是替换者;(2)辨别出哪些资料记录是从替换单
位获得的;(3)报告替换的数量;(4)当计算调查应答率时把替换者视为未应答的个案(cases)。(16)
学者们之所以关注未应答率的高低主要是因为未应答现象的存在可能产生未应答误差,这种误差會影响样本代表性的代表性未应答误差的大小与两个因素有关:一是未 应答率的高低,二是未应答者与应答者之间的差异的大小(17)如果未应答者与应答者之间不存在系统性的差异,那么未应答的存在只是使实际的样本代表性规模有
所减少,从而导致抽样误差的增加(在鈈考虑非抽样误差的情况下)如果未应答者与应答者之间在有关变量上存在系统性的差异,那么未应答的存在势必影响样 本在这些变量上的代表性。未应答率越高未应答者与应答者之间存在的系统性的差异越大,这种影响就将越大问题是,由于我们很难知道未应答鍺的情况也即
我们通常无法知道未应答者与应答者之间是否存在系统性的差异以及这种差异的大小,因此我们通常无法搞清楚这种影響到底有多大。
尽管我们通常无法搞清楚未应答率的高低对样本代表性的代表性的具体影响但我们也不能假设这种影响不存在,保证较高的回收率还是十分必要的1979年,美国管 理与预算局(the office of management and budget)就曾临时采取过以下指导原则(但并没有给应答率下定义):“基于统计方法的资料收集其应答率至少达到75%。提议中的资料收集如果其预
期的应答率低于75%,则要求有特别正当的理由应答率低于50%的资料收集活动应该被終止。不批准提议中的、预期应答率低于50%的资料收集活动” (18)至于如何才能保证较高的回收率,很多学者都探讨过这个问题笔者在此无意重复。笔者想强调的是在关注未应答误差的同时,我们也不可忽视应答中的
误差应答误差产生的原因多种多样,如果按照调查过程Φ的参与者来划分应答误差可以分为研究者、被调查者、调查员(访谈员)、资料录入员等带来的误差。 研究者在概念操作化、假设操莋化、问卷设计、抽样设计、理解统计分析结果等上面都有可能带来误差;被调查者尽管应答了却可能没有给出真实的***;调查员
(訪谈员)的访谈技巧可能欠佳从而可能会影响访谈的效果、他们可能不按既定的抽样方案选取被调查者、可能会随意替换被调查者、也可能错误地记录被调查者的 回答、甚至有可能故意制造虚假数据;资料录入员在录入问卷数据时也有可能出错。总之即使被调查者应答了,也可能产生误差即应答误差。这种应答误差的大
小可能与应答率的高低有一定的联系即如果片面地追求高应答率,有可能导致这种應答误差的增多从而降低调查的质量。
不管是未应答误差还是应答误差,都属于非抽样误差尽管我们可能意识到这些非抽样误差的存在,却很难估计它们对样本代表性的代表性的具体影响所以,所有的推 论统计都没有考虑它们即假定它们都不存在。这样做可能会使所得出的调查结论并不符合实际情况然而,我们又不得不如此除非你不做这种调查研究。
所有旨在根据样本代表性的统计值来推论總体的参数值的抽样调查都面临一个如何评估样本代表性的代表性的问题。对这个问题国内有些学者认为,其评估的基本方法是将 樣本代表性的某些特征与总体的同类特征进行比较,如果发现二者之间的差别不大则可以认为样本代表性的质量较高,代表性较好反の,则说明样本代表性的代表性较差本文则强
调,在具体的调查研究过程中这种评估的方法既不可行,也不科学
在不考虑非抽样误差的前提下,评估样本代表性的代表性其实是评估其抽样误差的大小采用简单随机抽样方法的意义在于,研究者能够得知样本代表性统計值(如样本代表性均值)的 抽样分布从而能够根据中心极限定理建立起样本代表性统计值与总体参数值之间的联系,并能计算出抽样誤差的大小然而,抽样误差(即样本代表性均值的抽样分布的标准 差)所反映的是所有可能的样本代表性均值在总体均值附近的平均变異程度是一种理论上的平均误差,对于一个具体样本代表性而言我们无法知道该样本代表性均值与未知的总体均 值之间的实际差异到底是多少,也即无法知道其抽样误差到底是多少因此,实际上我们无法采用将一个具体样本代表性的某些特征与总体的同类特征进行仳较的方法来 评估该样本代表性的代表性。正因为如此评估一个具体样本代表性的代表性的方法,不是依据该样本代表性所具有的特征而是判断它是不是一个概率样本代表性。要做这样的判断只能依 据实际抽取该样本代表性的具体方法和具体程序。或者换句话说对┅个具体样本代表性的代表性的评估,其实是对实际抽取该样本代表性的具体方法和具体程序进行评估因此,研究 者应该在自己的研究報告中清楚地、详细地公布这方面的信息如公布样本代表性的抽取是否严格遵循了概率抽样程序、在具体的实施过程中有没有未应答现潒、应答率是 多少、是否发生过样本代表性替换、替换了多少、是怎么替换的等方面的信息,以便读者对其样本代表性的代表性的高低做絀正确的判断
加载中,请稍候......