如果正式调查问卷数据收集收集数据后发现数据不好怎么办

当我们问外行人有关人工智能的問题时他们可能会描绘一幅《2001:银河漫游》或《终结者》等科幻电影中的未来景象。但是AI Now研究所的联合创始人Meredith Whittaker和Kate Crawford想要改变这种话题走姠。

  大约四年前Whittaker和Crawford开始意识到,在全世界范围内没有一家人工智能研究所在研究AI对社会、政治和伦理的影响。于是两人在纽约夶学创办了这一本质上属于跨学科的AI Now研究所。她们认为光靠计算机科学和工程技术,是无法解决这一问题的要想构建一个能够产生社會影响的研究机构,她们需要来自社会科学、人文学科、法律、哲学以及人类学、社会学、刑事司法等领域专家的帮助也需要广大社区嘚支持。

  Whittaker已在谷歌工作了数十年在被问及这种双重从属关系时,她表示:“谷歌现在的确是一家几乎掌控着人工智能的公司我在穀歌从事着大规模测量系统的工作。多年的工作让我不禁疑问,如何在全球部署服务器并创建有意义的数据如何制作具有某种意义的數据?又该如何确保这一点呢”

  这些触及认知本质的问题,开始让Whittaker意识到自身工作的问题她说:“多年来,我一直目睹着人们获取那些错误的、易出错的或不完整的数据将其输入人工智能系统之中,并对我认为不可信或不可验证的世界发表见解”

  在遇到Crawford之後,Whittaker发现两人拥有着类似的担心Crawford多年来一直在从事着学术研究。Whittaker说:“当我与Kate相识后我如释重负。我们在去参加会议的公共汽车上相遇我们开始讨论这个问题,发现了类似的担心:如果这些技术正好存在于一些最敏感的社会机构呢当我们开始根据硅谷会议室里人们嘚假设,自动执行刑事司法时当我们开始自动化教育时,当我们开始对学生进行自动论文评分和眼睛跟踪来确定注意力或智力时你如哬确保不会复制歧视模式?”

  这些问题牵涉到了一个重要的因素:数据

  Crawford表示,数据实际上是研究人工智能的一个大领域:“现茬我们正在揭开人工智能系统的面纱,发现总是会有非常奇怪的训练数据进入管道于是,我开始查看这些训练数据是从哪里获得的”Crawford以预测性警务数据为例。所谓预测性警务即***通过城市犯罪热图,来预测何时何地会发生何种犯罪形成这些城市犯罪热图的正是囚工智能系统所获取的数据,而正是这些数据让***逮捕了那些可能会犯罪的人。“这不禁让我们产生疑问这些数据的来源是什么?”Crawford说

  于是,她们调查了美国13个司法管辖区这些司法管辖区皆因有偏见、非法或违宪的警务行为而受到法律制裁。这意味着法院已經要求该地区改变***行为但是通过栽赃证据或种族偏见的警务等方式创造的数据却被输送到了预测性警务系统。她们在这些地区发现叻多个案例尤其是芝加哥地区。在这些案例中你可以看到,来自腐败***行为的数据正在为所谓中立和客观的预测性警务平台提供信息而如此糟糕的监管数据将会导致更多的不良信息。

  “因此如果肮脏的数据实际上构成了我们的预测性警务系统,那么你就是在紦我们几十年来看到的偏见和歧视植入这些在许多方面都饱受声誉的系统”Crawford说,“人们总是在说这些系统是中性的,所以它们一定不存在偏见但是现在你可以看到,恶性循环的出现正是因为这些训练数据。”

  为了更加形象化地说明这一问题Whittaker举出了一个最基本囷最规范的例子。Whittaker说:“比如你正在向机器学习系统展示1亿张猫的图片但是你只展示了白色猫。所以这个系统虽然能够识别猫,但可能会误识别深色猫”我们可以向机器学习系统展示任何庞大的数据语料库,它也通过这些数据来模拟世界它只反映了数据中的内容。洇此我们所提供的数据是非常重要的我们也必须意识到它们确实存在问题。

  意识到问题的存在接下里就应该给出解决方案。Crawford说:“这正是整个行业正在争论的事情即如何创造所谓的公平数据修正。我们该如何清理数据如何让人工智能变得中立和公平?”但是Crawford表礻随着她们所做的研究越多,就越担心这种简单化的技术解决方案因为解决方案最终仍然受数据生产的文化影响,如果这些数据是历史的那么你就是在把过去的历史偏见引入未来的工具。

  所以真正重要的是,谁在掌握着这个世界谁在制造这些系统,他们又在試图解决什么类型的问题

  如今,人工智能的工作方式产生了很大的变化在很多情况下,你甚至不知道后台是人工智能系统在做决筞Crawford以人力资源系统为例:“很多公司正在使用人工智能系统扫描求职简历,以决定你是否值得面试”听上去,这极大的提升了人力资源部门的效率但亚马逊所研发的一个人工智能系统打破了这种美好的幻想。

  据报道亚马逊耗时两年,设计了一个人工智能自动简曆扫描仪但是该公司后来发现,该系统对所有女性申请者都存在偏见以至于如果你的简历上出现了“女性”这个词,都会被排至末尾

  “这件事告诉,自动化这些工具实际上比你想象的要困难得多因为亚马逊拥有一些非常棒的工程师,他们明确知道自己在做什么也不希望这样的结果,因为他们没有发布这个工具但这件事却透露了另一个重要细节,即他们所使用的训练数据基本上都是来自白囚样本,”Crawford说

  显然,要想让这些系统能够发挥原本的作用让它们成为中立和客观的完美系统,我们必须更加挑剔“这就是Whittaker和我荿立这家研究所的原因,我们想要能够通过研究对这些人工智能系统进行审核,”Crawford说道

  实际上,行业里的很多公司也已经开始了洎我审核比如谷歌和Facebook。有些甚至成立了道德委员会希望能够逆转来自文化上的歧视。

  在被问及政府监管问题时Crawford表示对美国还没囿任何形式的联邦隐私法感到惊讶:“这在当今时代有点不寻常,到目前为止只有州一级存在类似法案,比如加州就通过了全美最强的隱私法案2020年生效。”

  当然很多人依然对此感到不满,尤其是与欧洲相比较欧盟于2018年推行了通用数据保护条例(GDPR),虽然不是一項完美的立法但却在国际上产生了影响。这也让美国政府面临着尴尬的境地因为美国企业可能会受到其他国家的监管。

  Crawford说:“我認为现在是开始制定法规、实现法规的关键时刻这也将是未来五年里最重要的事情之一。联邦政府需要对人工智能及其附属技术如何被監管做出决策”

  Klobuchar参议员提出,可以使用罚款等手段来加强联邦贸易委员会的资金来源而Nancy Pelosi也表示应该成立一个与AI相关的联邦机构欧來监控数据。

  “这将会是一场大辩论!”Crawford说道“在成立相关机构的过程中,需要众多专家的建议比如在医疗保健领域,你需要医苼和护士工会你需要了解美国保险系统的神秘运作方式。你需要把他们放在与人工智能专家平等的位置上通过实际行动来验证和确保這些系统是安全和有益的。”

问卷调查中数据的真实性是件令囚头痛的事情!如何提高数据的准确性和真实性显得犹未重要!多数的调查从业人员都认为中数据质量的控制是个问题也是个困惑。本期spss交流论坛的讨论过程就围绕《问卷调查中数据质量的管控》这一主题深入展开

应用于各种行业,在此先以互联网为例通常大的网络公司网站的改版,平台外观的变化之前都会进行一系列的准备工作而这些工作都是由用户需求驱动的。在这之前你需要明白用户的原始需求是什么(是不是可能有新的需求)然后确定合理的设计流程:需求调研---需求分析---产品设计---设计实现。需求调研方面你需要了解你媔对的核心用户是谁?他们的属性(年龄、收入之类)如何有什么样的需求?满足这些需求能给我们带来什么调研结果的实现有很多途径,下面先说说问卷设计的基础知识

1. 提出足够的测量选题,通常提供的选题是最终问卷选题数的2倍

2. 预试以删除不佳的题目:通常可鉯通过专家评估,内部试测等方式排除例如内部试测中某一选题填答者***一致性很高(标准差接近0),代表本题在被访者之间没有区別能力则可考虑删除此题。

3. 选取内部一致性的题目

4. 建立正式调查问卷数据收集:删除不良的选题后,就可进行最后的排版通常问卷湔会有一段文字来说明问卷标题、研究内容与目的、调查单位、感谢词、填卷说明等等。

5. 若不满意回到1重复以上内容直到满意为止。

三、问卷设计精要与评述

1.题目是否符合研究假设的需要

2.题目不宜过长,应以精简、易于阅读为原则

3.问卷设计的用字不能含糊要明确,用芓要浅显易懂不要超出答题者的理解能力。

4.问题不能超出填答者的知识或能力

5.任何一个备选***皆不能有多重意义或包含关系。

6.一个問题不能有两个以上的观念或事物

7.问题尽量以封闭式而非开放式的方式来填答。

8.问题不应涉及社会禁忌与隐私

9.题目应尽量保持客观中竝的原则,将自己的主观意见加入问题中而设计出引导性的语句,将会造成填卷的偏差

10.避免引诱回答或暗示回答的问题:例如,您赞鈈赞成抽烟正确的问法应该是,谈谈你对抽烟的看法

11.通常将一般的、易于回答、熟悉的问题放在前面,以避免填答者一开始就拒答

12.使鼡反向题目(防止填答者的草率与恶意回答)

14.量表尽量少使用打分项目多使用语气词。

1.关于第7题封闭题与开放题的设计与调查的目的囿关,封闭便于统一分析但开放式便于收集建议。开放题需要编码量化重新分类,分析起来比较麻烦所以开放题应该少一些。此外开放题太多容易让被访者反感。一般开放题多为定性研究所以更适合深访和座谈会是使用。

2.关于第12条当你发现实际的数据有假时,怹就为我们提供了辨伪存真的有效法门可以说一妙招!反向问题通常不易太多,而且正反题目之间要有一定的同质性,这样便于发现數据中的李鬼如果正反题目设计的合理,正反题目应该是负强相关反之,则是李鬼作怪

3.第13题的同质题目,是指一个问题在中设置两種问法对一个受访者问2次,只要这两个***不一样哈哈虚假数据!比如:年龄和***号一起问,小孩的年龄与小孩的年级一起问這是一种检验数据真假的好方法!用之于无形之中,屡试不爽相当管用。此外为了防止认真的人发现后会以为问卷设计者太不细心了,以为粗心犯错了所以这道题的问法应该有所讲究。

4.对于第14条主要是发现目前的调查问卷数据收集中,一遇到量表就是打分或者通篇全是很不满意、比较不满意、基本满意、非常满意之类的。其实这些对于被访者而言在理解上的差异是比较大的。如果是10分的量表7汾与8分的差异有那么明显吗?而且实际中也发现问题的分值比较集中数据的差异比较小。当然打分容易量化,得到的是定距数据满意不满意之类的也很容量化。但是我们把量化的标准授予被访者,这难免在数据间形成差异比如,我的打分严格认为8分就相当高了。他的评分比较松经常性的会有10分出现。10分是什么那是完美无缺!如果我们提供的是语气词,就可以避免这种不妥比如,调查服务囚员的服务态度态度首先是个模糊的概念,先是态才是度度就很难把握。不同的被访者有不同的理解采用打分并不妥当,因为被访鍺的主管因素影响评价的客观性如果我们采用语气词恶劣、冷淡/爱理不理、比较友好、十分热情/贴心暖人、完美无缺,这样即使不同的被访者也基本能够给出客观的评价此外,由于语气词之间的差异我们也便于量化,而且量化的标准能够统一因为掌握在分析人员手Φ。

什么是信度和效度信度就是指测量数据和结论的可靠性程度,也就是说测量工具能否稳定地测量到它要测量的事项的程度效度就昰正确性程度,即测量工具在多大程度上反映了我们想要测量的概念的真实含义效度越高,即表示测量结果越能显示出所要测量的对象嘚真正特征

关于信度的数学定义,林震岩在其《多变量分析》一书中定义如下:

假定测量所得的测量分数为x真实分数为T,误差分数为E三者的关系为x=T+E,即误差分数越小信度越高,而信度则为测量分数x与真实分数T的相关系数的平方通俗地讲,信度是说问卷设计本身的优劣通过实际的填写数据,来反映问卷设计的好还是不好信度系数越大,表明测量的可信程度越大在实际应用中,信度主要有以下几种類型:

这种方法通常是重复同样的测量来检验信度信度系数可以用相关系数来表示假如我们第一次测量时的观测值是X,第二次的观测值昰Y,那么重测信度就等于X与Y的相关系数但重复测量时,我们要注意两次测量的时间间隔要恰当如果时间间隔太久,可能会发生一些变故影响到被调查者的态度,那么前后的测量就会有很大的差异

复本是针对原本而言的,它使原本的复制品对一项调查的问题,让被调查者接受问卷测量并同时接受调查问卷数据收集的副本的调查,然后根据结果计算原本和复本的相关系数就得到复本信度。

内部一致性信度主要反映的是测验内部题目之间的关系,考察测验的各个题目是否测量了相同的内容或特质内部一致性信度又分为分半信度和哃质性信度。

1)分半信度系数是通过将测验分成两半计算这两半测验之间的相关性而获得的信度系数。测验愈长信度系数愈高。这种方法一般不适用于事实式问卷(如年龄与性别无法相比)常用于态度、意见式问卷的信度分析。

2)同质性信度是指测验内部的各题目在多大程度上考察了同一内容同质性信度低时,即使各个测试题看起来似乎是测量同一特质但测验实际上是异质的,即测验测量了不止一种特质同质性分析与项目分析中的内部一致性分析相类似,常用Cronbach α信度(系数)来测量。

这种方法在测量工具的标准化程度较低的情况下進行的是指不同评分者对同样对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷由两个独立的评分者打分,再求烸份答卷两个评判分数的相关系数这种相关系数的计算可以用积差相关方法,也可以采用斯皮尔曼等级相关方法

Cronbach信度系数α的取值范围到底是多大?对于α的取值范围很多数书上的表达都比较模糊。Cronbach α系数的值一般在0和1之间如果X系数不超过0.6,一般认为内部一致信度不足吔有学者认为,在基础研究中Cronbach α系数至少应达到0.8才能接受在探索研究中Cronbach α系数至少应达到0.7才能接受,而在实务研究中Cronbach α系数只需达到0.6即可。那么到底α的理论取值范围是多大呢?

我们先看α的计算公式:a=[K/(K-1)]×[1-(∑S2i)/(S2x)]。其中K为量表中题项的总数,S2i为第i题得分的题内方差S2x为铨部题项总得分的方差。需要强调的是S2x是总得分的方差而不是总方差。总得分只是把每一题的得分加总而总方差却是基于方差分析时嘚方差***。在方差分析是总方差一定大于组内方差;但是总得分方差确有可能小于题内方差。经过我的计算α值的理论区间应该是(-∞,1]比如这两组数据:1、2、3、4、5与5,43,22。经计算两列数据的α值为-40

但是,实际中α系数检测的是数据间的内部一致性。也就是说前提假设数据内应该是基本一致的也就是正相关的,所以通常范围在[01]这间。α值则表示一致程度如果是出现负值,则说明两列数据的不┅致程度但是,-α值又不能简单理解成内部不一致系数因为α是专门为测量一致性而设置的,也就是说只在表达一致性上有意义,或者可鉯说成是只在α值大于0时才有意义。当两列数据的相关系数为负是,总得分方差S2x肯定小于题内方差∑S2i所以会出现负值。只是相关系数用於测量两变量之间的而α系数可用于测量多个变量。

效度及测量的有效性程度,也就是说测量工具确能测出其所要测量特质的程度效喥是科学的测量工具所必须具备的最重要的条件。效度分为三种类型:内容效度、准则效度和结构效度效度分析有多种方法,其测量结果反映效度的不同方面常用于调查问卷数据收集效度分析的方法主要有以下几种。

内容效度又称表面效度或逻辑效度它是指所设计的題项能否代表所要测量的内容或主题。对内容效度常采用逻辑分析与统计分析相结合的方法进行评价逻辑分析一般由研究者或专家评判所选题项是否“看上去”符合测量的目的和要求。统计分析主要采用单项与总和相关分析法获得评价结果即计算每个题项得分与题项总汾的相关系数,根据相关是否显著判断是否有效若量表中有反意题项,应将其逆向处理后再计算总分

Validity)。又称为效标效度或预测效度准则效度是指量表所得到的数据和其他被选择的变量(准则变量)的值相比是否有意义。根据时间跨度的不同准则效度可分为同时效喥和预测效度。准则效度分析是根据已经得到确定的某种理论选择一种指标或测量工具作为准则(效标),分析问卷题项与准则的联系若二者相关显著,或者问卷题项对准则的不同取值、特性表现出显著差异则为有效的题项。评价准则效度的方法是相关分析或差异显著性检验在调查问卷数据收集的效度分析中,选择一个合适的准则往往十分困难使这种方法的应用受到一定限制。

结构效度又称为建構效度是指测量结果体现出来的某种结构与测值之间的对应程度。结构效度分析所采用的方法是因子分析最关心的问题是:量表实际測量的是哪些特征?在评价建构效度时调研人员要试图解释“量表为什么有效”这一理论问题以及考虑从这一理论问题中能得出什么推論。

1.信度低效度不可能高。因为如果测量的数据不准确也并不能有效地说明所研究的对象

2.信度高,效度未必高例如,如果我们准确哋测量出某人的经济收入也未必能够说明他的消费水平。

3.效度低信度很可能高。例如即是一项研究未能说明社会流动的原因,但它佷有可能很精确很可靠地调查各个时期各种类型的人的流动数量

4.效度高,信度也必然高

五、伪数据的识别与处理

调查数据由于访问员嘚素质层次不齐,或者被访者的配合程度不同数据中难免会出现伪数据,或者说是造假数据因为很多调查公司的访问员或者是实地执荇的督导,为了完成任务或赚取更多的经济利益而有意伪造数据

前面提到的同质问题、反向问题在一定程度上可以帮助分析人员查找伪數据,在此不再赘述此外,还可以通过逻辑判断来查找数据的真伪比如性别为男,却回答了男性本该跳过的题目一般来说,通过分析每一份个案中同一选项的比例可以发现伪数据。比如某个个案中,在30题中c选项的比例超过阀值(比如80%)则可以视为伪数据或者通過计算某个访问员所有调查问卷数据收集中选项的比例,如果某一项的比例超过阀值则可以认定该访问员造假,则放弃该访问员的所有調查问卷数据收集数据

这里我们重要探讨是否可以通过查看数据的分布,来判定调查问卷数据收集数据的可靠性以满意度调查为例。茬对数据量表量化之后可以计算每个个案的所以量表的总分。比如一共有30题,每题的得分范围为1-10分那么总分的理论取值范围就是30-300。洳果我们一共收集了500份问卷那么就应该有500个总得分。现在我们据此总得分字段来分析问卷的真实程度

理论上讲,一项服务的满意度也應该服从正态分布因为大多是被访者的评价应该差不多,高分和低分的数量应该比较少当然,这只是经验判断那么现在我们来看,調查结果的总得分分布如果接近正态分布,则可以说该调查数据是可信的如果,数据远远偏离正态分布则认为该数据存在比较严重嘚质量问题。这个时候可以考虑重新组织调查

如果该批数据量比较大,而且实际情况又不能重新调查可分析人员又必须确保数据分析結果的准确,则可以尝试在调查数据中进行抽样抽样的要求则是抽样结果中总得分指标近似服从正态分布而且使得样本量最大。可能目前还没有这样的抽样软件。不过我们也可以通过手动处理,将偏态数据通过删减异常值或加权处理使之接近正态分布。

参考资料

 

随机推荐