预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10
亲,该文档总共51页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
1.编码(biānmǎ)2)数据录入3.审核(shěnhé)通常,审核规则的确定基于以下几个方面:关于调查主题的专业知识;问卷和问题的结构;其它(qítā)相关的调查或数据;统计理论(如离群值的检测方法)。数据收集完毕后,对审核失效,通常(tōngcháng)按下列方法进行处理:将其剔除;进行插补;设立特殊代码。有些时候,一条记录(或整份问卷)不符合多条审核规则的要求,或者不符合少数几条关键审核规则的要求,从而使得后续的处理失去意义。在这种情况下,通常可以将这些记录剔除,作为无回答处理,同时将赋予各被调查单元的权数(quánshù)进行调整。对大多数审核失效都应该加以标示,留待作插补处理。对于有些项目,我们可以用特殊代码(dàimǎ)标示的方法,对确认为审核失效而不可接受的值或无效的空白加以保留。选择性审核(shěnhé)审核(shěnhé)的指导方针审核(shěnhé)的准则:审核应该分阶段进行;审核工作应由对本次调查的主题、问卷的设计和数据分析有专业知识、并且有类似调查经验的人员来进行;各阶段所进行的审核不应与其它(qítā)阶段的审核相抵触;应该将审核的信息和审核工作对调查数据的影响通知数据的用户。4.插补几种确定性插补方法(fāngfǎ)如下:随机插补能更好地保持数据集的频数结构,保持比确定性插补方法更真实(zhēnshí)的变异性。除供者插补方法外,下面介绍的方法可逐项进行插补。所谓的供者插补方法,就是用一个供者来插补一个受者的所有缺失的或不一致的数据。4.1推理(tuīlǐ)插补4.2均值(jūnzhí)插补4.3比(率)或回归(huíguī)插补这时,的插补值按如下公式计算:式中:是变量y第i个记录的插补值;是插补类中记录的x值的均值;是插补类中记录的y值的均值。这里我们假定,拟合一个插补类中有效(yǒuxiào)数据(即通过了所有的审核)的比率或回归模型,同样适用于该插补类中审核失效的数据。比率和回归估计产生的插补值比简单均值法产生的插补值更加稳定。这种方法常用于的商业调查中的定量变量,在这种调查中常可用前期数据来预测现期数据。利用前期的数据进行插补,也称前向插补,是比率或回归插补的一个特例,只是直接用前期调查的数据来作为当前(dāngqián)调查的缺失数据的插补值。4.4热平台(píngtái)插补样本序号性别年龄婚姻状况收入汽车拥有1男青年未婚70无2男中老年已婚100有3女青年未婚50无4男中老年已婚70有5男青年未婚90有6女中老年丧偶(sàngǒu)30无7男中老年已婚------8女青年离异45有9男青年未婚---无10女中老年丧偶(sàngǒu)20---11男青年未婚50有12男中老年已婚------插补情况(qíngkuàng):在序贯热平台插补方法中,数据在插补类中是按某种顺序排列进行处理的,插补就是用这个序列需要插补数据前面某一个有效的回答单元(dānyuán)的数据来代替缺失的数值。如果每次都使用相同的排序及选取方法,序贯热平台法是一种确定性的插补方法。而随机热平台插补,供者是在插补类中随机选出的,因此是一种随机插补方法。供者插补方法(局限于热平台插补和最近邻插补)的优点是,因为相似的供者(如公司和家庭等)具有相似的特征,因此插补出的数值应该是相当准确的。使用(shǐyòng)供者插补可以保持数据的原始分布形式。4.5冷平台(píngtái)插补4.6最近(zuìjìn)邻插补4.7随机性插补哪些(nǎxiē)值需要插补举例(jǔlì)说,假设某份问卷中关于一位被调查者的背景资料是:受教育程度(大学),婚姻状况(已婚),性别(女),年龄(10岁)。显然,这条记录中,年龄-婚姻状况、年龄、受教育程度是不符合审核规则的。为了纠正审核失效,可以同时调整婚姻状况和受教育程度,也可以只对年龄作调整,一般倾向于采用后者。插补后数据(shùjù)的方差估计插补的准则(zhǔnzé)以下是进行插补的几条准则:插补得到的记录应该和审核失效的记录非常相似。这通常可以通过(tōngguò)只对尽可能少的变量进行插补而尽可能多地保留被调查者的原始回答数据来做到。基本的假定(在实际工作中并不总成立)是一个被调查者更有可能只出错一两次,而出错多次的情况较少;好的插补会为评估留下审查的线索,并保证插补的记录具有内部一致性。插补处理过程应该是自动的、客观的、可再现的和有效的;插补得到的记录应该满足所有的审核规则;-插补值应标明(biāomíng),插补方法和插补使用的资料也应清楚地标明(biāomíng)。记录中变量的插补和非插补的值都应该保留,以便对插补的程度和影响进行评估;-仔细选择插补的方法,考虑每一种插补方法的优缺点以及要插补的数据的类型;-插补方法应减少无回答偏