第02章 数据收集、整理和清洗
2.1 数据目标
数据收集的步骤
定义研究目标
在开始数据收集过程之前,需要准确确定要实现的目标。可以从以下方面入手:
- 编写现实难题(problems)陈述:说明要解决的实际或科学难题及其重要性
- 提出研究问题(questions):精确定义要查找的内容
- 根据研究问题选择数据类型:
- 定量数据:用于检验假设、精确测量或获得大规模统计见解
- 定性数据:用于探索想法、了解经验或获得特定环境的详细见解
- 混合方法:当有多个目标时,可同时收集两种类型的数据
选择数据收集方法
根据要收集的数据类型,确定最适合的研究方法。常见的数据收集方法包括:
- 问卷调查
- 访谈
- 观察
- 实验
- 文献研究
- 档案研究
- 案例研究
规划资料收集程序
需要准确计划如何实现选定的方法:
- 决定问题形式(针对调查或访谈)
- 制定实验设计(针对实验研究)
- 实现可操作化:将抽象概念转变为可测量的观察结果
- 设计采样方式:定义总体和样本
- 编写标准化程序:确保多个研究人员的一致性
- 制定数据管理计划:包括数据组织、存储和保护措施
动手收集资料
在实施数据收集时需要注意:
- 记录所有相关信息
- 仔细检查手动数据输入的错误
- 评估数据的可靠性和有效性(针对定量数据)
陈述现实难点(problem)
基本内容
陈述现实难点需要包含以下要素:
- 将难点放在特定背景之中(已知内容)
- 描述研究将要解决的确切难点(需要知道的内容)
- 显示难点的相关性(为什么需要知道)
- 设定研究目标(将采取的行动)
- 提出研究难点(精确定义要聚焦或解决的难点)
陈述方法
- 将难点具体化:
- 对于实际研究难点:关注何时何地出现、影响对象、已有尝试
- 对于理论研究难点:关注科学、社会、地理或历史背景
- 说明其重要性:
- 对于实际研究难点:说明对组织、机构或社会的影响
- 对于理论研究难点:说明对理论理解或未来研究的贡献
- 设定目的和目标:
- 目的(aim):研究的总体目的,通常以不定式形式编写
- 目标(objectives):实现目的的具体步骤
提出研究问题(question)
基本要求
好的研究问题应具备以下特征:
- 专注于单个问题
- 可使用主要和/或次要来源进行研究
- 在时限和实际限制条件下可行回答
- 具体到足以彻底回答
- 足够复杂,可以在论文或论文的范围内得出答案
- 与学习或社会有广泛相关性
研究问题类型
常见的研究问题类型包括:
- 描述性研究:X的特征是什么?
- 比较研究:X和Y之间有什么区别和相似之处?
- 相关研究:变量X和变量Y之间有什么关系?
- 探索性研究:X的主要因素是什么?Y在Z中的作用是什么?
- 解释性研究:X对Y有影响吗?Y对Z的影响是什么?X的原因是什么?
- 评估研究:X的优缺点是什么?Y工作得如何?Z有多有效或理想?
- 行为研究:如何实现X?改善Y的最有效策略是什么?
好的研究问题的特征
- 专注性和可研究:
- 专注于单个主题和问题
- 不要求主观价值判断
- 可使用主要或次要数据
- 避免使用”为什么”的问题
- 可行而具体:
- 在限定条件下完成
- 使用明确的特定概念
- 不要求最终的解决方案/政策或行动方案
- 复杂而有争议:
- 无法用”是”或”否”回答
- 无法用容易找到的事实和数字回答
- 提供辩论和审议的范围
- 与现实相关且具有原创性:
- 解决与所在领域或学科相关的问题
- 有助于进行话题性的社会或学术辩论
- 问题尚未得到回答
2.2 数据收集
数据的来源
研究方法产生的数据类型
- 观察数据
- 调查数据
- 实验数据
数据产生的方式方法
- 问卷数据
- 访谈数据
- 文献数据
- 痕迹数据(注意不是痕迹证据)
- 日志数据:记录数据获得过程、来源、基本特征等
数据的载体
数字化程度
- 数字化的数据
- 非数字化的数据
数值化程度
- 数值数据
- 非数值数据
具体形态
- 文本数据:
- 访问、观察中的文字记录
- 数字化的字符形态数据
- 文字加载于各种载体的数据
- 图片数据:
- 访谈照片、搜集图片等
- 数字化为像素点形态的图片数据
- 图形加载于各种载体的数据
- 音频数据:
- 访问录音、语音日志等
- 数字化为波形形态的音频数据
- 音频加载于各种载体的数据
- 视频数据:
- 访谈录像、搜集视频等
- 数字化为像素点加波形形态的视频数据
- 视频加载于各种载体的数据
- 实物数据:
- 需要实物才能完整保存信息的载体数据
- 访谈中搜集的实物、观察到的实物等
数据的状态
研究可用性
- 原始数据:一般不能直接用于研究
- 研究数据:处理为结构化的、有变量、数值、属性标签的数据
数据持续性
- 已经存在的数据:
- 政府各类统计数据
- 上市公司公开数据
- 研究机构或个人公开的数据
- 将要产生的数据:系统采集的、不断推进补充的数据
数据产生者
- 一手数据:研究者自己调查获取的数据
- 二手数据:已被使用过的数据,可再次分析
使用二手数据的优势: - 数据的可靠性已被检验 - 研究成果具有可比性 - 节省调查资源和时间
数据获取权限
- 无需授权:
- 正式出版物提供的数据
- 仅需在使用说明中注明出处
- 需要申请授权:
- 公开的学术研究数据
- 需要申请并获授权
- 需要授权且未公开:
- 政府数据
- 银行数据
- 电信数据等
二手数据收集
搜索引擎工具
- 谷歌搜索
- 谷歌学术
- 谷歌图书
- 必应搜索
综合型数据平台
- 国内文献和数据:
- 中国知网(含统计年鉴资源)
- 搜数网
- 人大经济论坛
- 国外文献和数据:
- SpringerLink电子期刊及电子图书
- Wiley Online Library
- ScienceDirect
- Emerald
- ProQuest学位论文全文库
专项型数据平台
- 国外平台:
- 美国大学联盟数据集成中心(ICPSR)
- 美国芝加哥大学广泛社会调查(GSS)
- 美国芝加哥大学收入动态调查面板数据(PSID)
- 美国密歇根大学健康和退休调查数据(HRS)
- 英国艾塞克斯大学认识社会调查数据库
- 国内平台:
- 北京大学中国社会科学调查中心(ISSS)
- 中国人民大学中国调查与数据中心(NSRC)
- 西南财经大学中国家庭金融调查与研究中心
- 中国疾病控制中心(CDC)
互联网公开数据
- 开放形式:
- 网站零散化页面
- 网站结构化页面
- 网站API数据接口
- 所需技能:
- 网络爬虫编程能力
- HTML、SQL和API知识
调查数据收集
自填式问卷调查
特点: - 无调查员协助 - 问卷递送方式多样(调查员分发、邮寄、网络、媒体)
优点: - 问卷结构严谨 - 说明清晰
缺点: - 返回率较低 - 不适合复杂问卷 - 调查周期长 - 问题难以及时调整
面访式问卷调查
特点: - 调查员与被调查者面对面 - 提问-回答形式
优点: - 回答率高 - 数据质量好 - 时间可控
缺点: - 成本高 - 质量控制难度大
电话式问卷调查
特点: - 通过电话实施调查
优势: - 速度快 - 适合样本分散情况
局限性: - 需要被调查者有电话 - 访问时间受限 - 问卷需简单 - 难以说服拒绝者
2.3 资料整理和数据清洗
资料整理的流程
分类存储
- 依据数据的载体类型、研究的时间需求进行分类
- 采用合适的存放工具进行存放
- 纸版问卷需要按照分类标准存放,便于后续工作
建立目录
- 目录用于检索和利用
- 便于数据的使用和查找
- 对调查获得的数据建立目录,方便检索
编制索引
- 对于复杂数据,在目录与存储之间建立关联
- 便于快速定位和查找数据
资料整理的记录
记录内容
- 数据来源信息:
- 调查项目
- 调查人
- 采集人
- 采集时间
- 地点
- 对象
- 数据载体类型信息:
- 具体载体类型(如纸张、数字等)
- 数据描述信息:
- 数据规模
- 内容
- 关联主题等
- 数据分类信息:
- 根据载体形态或其他标准分类
- 大型项目需要建立基本分类
- 数据存储信息:
- 存储载体
- 存储方式
- 存储位置
- 与数据安全相关的信息(版本、份数、时间变化等)
资料的安全
版本保存
- 保存多个版本
- 纸笔传统版本:便于翻阅
- 数字化可检索版本:便于使用
数字化数据安全
- 数据存储:
- 随时保持多个备份
- 注意存储介质的可靠性
- 考虑数据安全性
- 数据安全:
- 防范使用者的误操作
- 防范内部或外部的有意攻击
- 离线保存的重要性
不同类型数据的安全
- 文本数据安全:
- 防范自然灾害
- 防范人为因素(如错误识别)
- 非数字化数据安全:
- 根据介质特征进行科学整理
- 采取适当的保管措施(如防潮)
数据清洗的内容
真实性评估
- 确认数据的真实性
- 避免道听途说、张冠李戴、杜撰臆想
- 防范”假新闻”现象
完整性评估
- 确保数据与研究目标相符
- 研究不需要的数据不应出现
- 研究需要的数据不应缺失
- 必要时补充收集数据
可用性评估
- 数据可用性:
- 确认数据是否可以用于数据库化
- 必要时进行数据加工
- 数据处理:
- 图片、音频、视频数据的数字化
- 痕迹数据的抽样处理
- 数据脱敏化处理
错误性评估
- 评估可能的错误来源
- 评估可能的错误大小
- 评估对数据质量的影响
数据清洗的记录
清洗工作记录
- 清洗步骤的做法
- 参与人
- 时间
- 地点
- 过程信息
清洗内容记录
- 数据真实性信息:
- 是否真实
- 是否存在编造、作弊嫌疑
- 不真实的部分和原因
- 数据完整性信息:
- 是否完整
- 是否有缺失
- 缺失的具体部分
- 数据可用性信息:
- 问卷数据是否加权
- 痕迹数据是否数据化
- 大数据处理方式
- 数据错误性信息:
- 问卷数据中的缺失
- 文献数据中的差错
数据清洗的安全
笔记清洗
- 区分私用笔记和公用笔记
- 将个人笔记清洗为数据笔记
- 确保笔记的可读性和可用性
音视频清洗
- 音频清洗:
- 将语音文档抄录为文字
- 处理格式问题
- 转换为通用格式
- 视频清洗:
- 非数字录像的数字化
- 数字录像的时间记录码处理
清洗注意事项
- 不要轻易丢弃信息
- 清洗的目的是让数据清晰化
- 保留原始观察记录
- 原始问卷至少保留十年以上
- 访谈记录和观察笔记要求永久保留
数据清洗操作
观测性数据清洗
- 处理观察性数据的差异性
- 将个性化观察数据转变为标准化记录
- 处理不同观察者的特异性
文献数据清洗
- 笔记清洗:
- 格式化清洗
- 将素材转化为数据
- 必要时进行编码
- 文献清洗:
- 数字版本与编目信息关联
- 建立个人档案馆
- 处理非数字化文献
痕迹数据清洗
- 数据来源确认:
- 网络爬取数据
- 数据拥有者机构提供的数据
- 平行数据
- 数据格式化:
- 将非格式化数据清洗为格式化数据
- 分门别类整理数据
- 数据结构化:
- 建立多维度关联
- 形成样本数据
大数据清洗
- 清洗前测试清洗策略
- 采用大数据清洗模式
- 运用Hadoop框架下的Map Reduce
- 处理云计算逻辑
2.4 数据的数据库化
数据库化的必要性
计算机处理需求
- 数据数量和复杂程度超出人工处理能力
- 计算机处理是最有效和快捷的方式
- 需要将数据转换为计算机可读取的数据库格式
数据库化的目的
- 便于数据分析和使用
- 使调查数据格式化、结构化
- 符合统计分析、计算的要求
数据库化的类型
计算机网络系统数据库化
- 主要用于数据存储
- 使用各种类型的数据库应用程序
- 如开源的MySQL等SQL数据库
分析计算用数据库化
- 通过建立数据库用于统计分析软件计算
- 主要学习单机统计计算与分析用的数据库化
- 大数据数据库化有不同特点和需求
调查数据的数据库化
主要步骤
- 编码:
- 在清理工作中完成
- 数据入库前需要审核
- 数据录入与转化:
- 纸版问卷:使用专门录入软件
- 计算机辅助调查:进行数据转化
- 避免录入和转化中的差错
- 检验和清理:
- 检查错行、错列问题
- 确保数据准确性
编码方法
- 原始编码:
- 直接运用问卷的编码
- 适用于访题数量极少、应答简单的情况
- 先编码:
- 调查开始前完成编码
- 适用于基本是封闭访题的情况
- 后编码:
- 问卷调查完成后进行编码
- 适用于有开放访题的情况
编码部
- 相当于问卷数据的索引
- 关联变量、变量值和变量标签
- 类似于问卷数据字典
录入工具
- 简单问卷调查:
- MS Office Excel
- Mac Numbers
- SPSS
- Stata、statistica、R等
- 复杂问卷调查:
- SPSS Data Entry模块
- EpiData等专门录入软件
检验和清洗
- 录入错误清理:
- 核对双录入的冲突数据
- 编码清理:
- 检查变量值是否在编码范围内
- 逻辑清理:
- 检查基本事实逻辑
- 处理离群值、极大值和极小值
- 处理无应答情况
- 进行变量再编码
访谈调查数据的数据库化
主要步骤
- 编码:
- 记录信息的编码
- 记录内容的编码(用于文本分析)
- 录入:
- 录入访谈记录信息
- 录入访谈内容(用于内容分析)
- 清理:
- 逐行核查
- 确保内容准确性
编码内容
- 访谈记录信息编码:
- 记录编号
- 访谈时间
- 地点
- 人物
- 主题
- 位置图
- 日志信息
- 访谈记录编码:
- 用于内容分析软件的编码
- 不同软件有不同编码要求
录入工具
- 数字数据:
- Excel、SPSS、Stata等
- 文本数据:
- Word、Numbers、Pages等
- 内容分析软件:
- Nvivo、Aquad、ATLAS.ti等
观察数据的数据库化
主要步骤
- 编码:
- 观察记录信息的编码
- 观察记录内容的编码
- 录入:
- 录入观察记录信息
- 录入观察记录内容
- 清理:
- 核查录入数据
- 确保内容准确性
编码内容
- 观察记录信息编码:
- 记录编号
- 观察时间
- 地点
- 事件
- 主题
- 观察媒体
- 日志信息
- 观察记录内容编码:
- 录入为数据化文本文件
- 便于交流和使用
录入工具
- 文本和数字数据:
- Word或Pages
- 图片数据:
- Adobe Lightroom等
- 视频数据:
- Adobe Premier等
- 音频数据:
- 专用音频数据库
文献数据的数据库化
主要步骤
- 编码:
- 文献信息的编码
- 编目信息的处理
- 录入:
- 将原数据库信息抄录到研究用数据库
- 清理:
- 核查录入数据
- 完整性检查
编码内容
- 文献记录信息:
- 作者
- 篇名
- 时间
- 载体
- 存放
- DOI/ISBN/ISSN等
- 文献内容信息:
- 文献内容
- 阅读笔记
- 思路图谱
- 总结要点
管理软件
- 文献管理:
- Zotero
- Endnote
- Papers
- 内容管理:
- OneNote
- MindManager
- 印象笔记
痕迹数据的数据库化
主要特点
- 基于变量的数据
- 需要转换为基于样本的数据
- 主要依靠脚本完成
主要步骤
- 编码:
- 确认使用原有编码
- 必要时重新编码
- 清理:
- 确认数据的可计算性
- 检查格式化、结构化问题
- 确认是否可用于分布式并行计算或单机计算
]
2.5 数据质量
数据质量评判原则
基本原则
- 真实性:
- 数据确实来源于调查
- 数据产生过程真实存在
- 调查对象真实存在
- 访问、观察真实存在
- 应答、场景、文献真实存在
- 准确性:
- 调查人员准确执行研究设计
- 准确处理调查对象和反馈
- 准确转录原始数据
- 时效性:
- 调查实施过程符合规定时间要求
- 满足时效要求的数据
评判维度
- 正向评估:
- 与标准要求的距离
- 符合性问题
- 反向评估:
- 误差的大小
误差分类
按来源分类
- 覆盖性误差:
- 涉及调查对象的备选机会
- 存在于所有调查方法中
- 抽样框与目标总体不一致
- 测量性误差:
- 来源于测量工具
- 来源于工具使用过程
- 反映在信度和效度上
- 应答性误差:
- 调查对象未回应或未完全应答
- 导致数据缺失
- 存在于所有调查类型中
- 抽样性误差:
- 仅出现在抽样问卷调查中
- 来源于抽样框制作
- 来源于抽样过程
按可改进性分类
- 随机误差:
- 调查活动中随机产生
- 可通过规范行为减少
- 增大变量测量的方差
- 系统误差:
- 由设计因素影响产生
- 测量工具带来的误差
- 增大测量的偏移量(bias)
调查总误差
- 所有数据收集、整理、清洗活动产生的误差综合
- 用均方误(MSE)表示
- MSE = 偏差平方 + 方差
覆盖性误差
基本概念
- 又称抽样框误差
- 目标总体与抽样框总体不一致
- 导致调查对象错位
相关概念
- 目标总体:
- 调查对象总体
- 有明确的调查对象所指
- 抽样框总体:
- 用于抽样的所有调查对象的集合
- 简称框总体
- 样本总体:
- 被抽中的调查对象集合
误差来源
- 丢失或重叠目标总体要素:
- 框总体小于或大于目标总体
- 部分要素失去或获得多次被抽中机会
- 包含非目标总体要素:
- 框总体大于目标总体
- 目标总体备选概率降低
- 不正确的辅助信息:
- 分层抽样中使用错误信息
- 影响层要素的备选概率
测量性误差
信度检验
- 概念:
- 测量工具的可靠性
- 重复测量得到相同结果的概率
- 测量工具的稳定性
- 实践类型:
- 垂直重复信度(前-后测信度)
- 水平重复信度(复本信度)
- 计算方法:
- 折半信度法
- 克隆巴赫系数法(Cronbach α)
效度检验
- 概念:
- 测量工具的正确性和有效性
- 类型:
- 预测效度
- 同时效度
- 结构效度
- 内容效度
应答性误差
基本概念
- 访员发出调查请求,调查对象未回应或未完全应答
- 导致数据缺失
- 可理解为广义覆盖性误差的一种
无应答类型
- 对象无应答:
- 抽样调查中称样本无应答
- 非抽样调查中称失访
- 议题无应答:
- 抽样调查中称选项无应答
- 非抽样调查中称议题未访到
应答率
- 应答率 = 应答样本数 / 样本总数 × 100%
- 分子:完全应答或部分应答
- 分母:有效样本、未接触样本、无应答样本等
抽样性误差
误差来源
- 抽样框制作:
- 样本覆盖性问题
- 抽样框与目标总体不一致
- 抽样过程:
- 分层、多阶段抽样
- 末端抽样方法
- 抽样人员操作
误差计算
- 均值的变异系数:
- 样本均值除以标准误
- 比例值:\(p/\sqrt{p(1-p)}\)
- 经验上小于50%可接受
- 样本均值的相对方差:
- 样本方差除以均值的平方
- 比例值:\(p/p(1-p)\)
2.6 抽样设计
抽样设计的基本概念
抽样调查的定义
- 从总体中抽取部分单位作为样本
- 对样本进行调查
- 用样本结果推断总体特征
抽样调查的特点
- 经济性:
- 节省人力、物力和时间
- 降低调查成本
- 时效性:
- 快速获取数据
- 及时反映总体情况
- 准确性:
- 减少调查误差
- 提高数据质量
- 灵活性:
- 适应不同调查需求
- 便于组织实施
抽样设计的基本原则
随机性原则
- 每个单位有相同的被抽中机会
- 保证样本的代表性
- 避免主观选择偏差
代表性原则
- 样本能够反映总体特征
- 样本结构与总体结构相似
- 保证推断的可靠性
可行性原则
- 考虑实际调查条件
- 便于组织实施
- 确保调查质量
抽样设计的基本步骤
确定调查目标
- 明确研究问题:
- 确定研究目的
- 界定研究范围
- 确定调查内容:
- 选择调查指标
- 确定调查项目
确定总体和抽样框
- 界定总体:
- 明确总体范围
- 确定总体单位
- 建立抽样框:
- 列出总体单位清单
- 确保抽样框的完整性
选择抽样方法
- 概率抽样:
- 简单随机抽样
- 分层抽样
- 整群抽样
- 系统抽样
- 多阶段抽样
- 非概率抽样:
- 方便抽样
- 判断抽样
- 配额抽样
- 滚雪球抽样
确定样本量
- 影响因素:
- 总体规模
- 总体异质性
- 允许误差
- 置信水平
- 调查成本
- 计算方法:
- 基于总体方差
- 基于比例估计
- 基于成本约束
实施抽样
- 抽样过程:
- 严格按照抽样方案
- 记录抽样过程
- 确保抽样质量
- 质量控制:
- 检查抽样结果
- 评估样本代表性
- 处理异常情况
抽样方法的选择
简单随机抽样
- 每个单位有相同被抽中机会
- 适用于总体单位较少
- 操作简单,易于理解
分层抽样
- 按特征将总体分层
- 在各层内随机抽样
- 提高估计精度
整群抽样
- 将总体分成若干群
- 随机抽取若干群
- 对选中群进行全面调查
系统抽样
- 按固定间隔抽取样本
- 操作简便
- 适用于有序总体
多阶段抽样
- 分阶段进行抽样
- 适用于大规模调查
- 降低调查成本
样本量的确定
影响因素
- 总体特征:
- 总体规模
- 总体异质性
- 总体分布
- 调查要求:
- 允许误差
- 置信水平
- 调查精度
- 实际条件:
- 调查成本
- 时间限制
- 人力物力
计算方法
- 基于总体方差:
\[ n = \frac{N\sigma^2}{(N-1)D + \sigma^2} \]
其中: - \(n\)为样本量 - \(N\)为总体规模 - \(\sigma^2\)为总体方差 - \(D\)为允许误差
- 基于比例估计:
\[ n = \frac{Np(1-p)}{(N-1)D + p(1-p)} \]
其中: - \(p\)为总体比例 - 其他符号同上
抽样误差的控制
误差来源
- 抽样误差:
- 样本与总体差异
- 不可避免的随机误差
- 非抽样误差:
- 调查设计误差
- 调查实施误差
- 数据处理误差
控制方法
- 抽样设计控制:
- 选择合适的抽样方法
- 确定合理的样本量
- 优化抽样方案
- 调查实施控制:
- 规范调查程序
- 加强质量控制
- 减少非抽样误差
- 数据处理控制:
- 严格数据审核
- 规范数据处理
- 保证数据质量
2.7 抽样分布和抽样误差
抽样误差
抽样误差概述
抽样误差是指由于抽样过程中样本与总体之间的差异而产生的误差。它是抽样调查中不可避免的误差来源之一,主要受以下因素影响:
- 总体异质性程度
- 抽样方法的选择
- 样本量的大小
- 抽样设计效率
- 应答率
系统抽样误差
系统抽样是一种等距抽样方法,其抽样误差计算公式如下:
\[ \begin{align} \hat{\mu}_{sy} &= \frac{1}{n}\sum_{i=1}^{n} \bar{y}_{i} \\ \widehat{Var}(\hat{\mu}_{sy}) &= \frac{M-n \cdot \bar{M}}{M\cdot n} \cdot \frac{1}{(n-1)} \cdot \sum_{i=1}^{n}\left(\bar{y}_{i}-\hat{\mu}\right)^{2} \end{align} \]
其中: - \(M\)为总体单位数 - \(n\)为样本量 - \(\bar{M}\)为平均群组大小 - \(\bar{y}_{i}\)为第\(i\)个群组的样本均值
整群抽样误差
无偏估计法
\[ \begin{align} \hat{\mu} &= \frac{N}{M} \cdot \frac{\sum_{i=1}^{n} y_{i}}{n} \\ \widehat{Var}(\hat{\mu}) &= \frac{N(N-n)}{M^2} \cdot \frac{s_{u}^{2}}{n} \end{align} \]
其中: - \(N\)为总体群组数 - \(M\)为总体单位数 - \(n\)为样本群组数 - \(s_{u}^{2}\)为群组间方差
比率估计法
\[ \begin{align} \hat{\mu}_{r} &= \frac{\sum_{i=1}^n {y_i}}{\sum_{i=1}^{n}{M_i}} \\ \widehat{Var}\left(\hat{\mu}_{r}\right) &= \frac{N(N-n)}{n(n-1)} \cdot \frac{1}{M^{2}} \sum_{i=1}^{n}\left(y_{i}-r M_{i}\right)^{2} \end{align} \]
其中: - \(M_i\)为第\(i\)个群组的单位数 - \(r\)为比率估计值
多阶段抽样误差
无偏估计法
\[ \begin{align} \hat{\mu} &= \frac{N}{M} \cdot \frac{\sum_{i=1}^{n} \hat{y}_{i}}{n} \\ \widehat{Var}(\hat{\mu}) &= \frac{N(N-n)}{M^2} \cdot \frac{s_{u}^{2}}{n} + \frac{N}{nM^2} \sum_{i=1}^{n} M_{i}\left(M_{i}-m_{i}\right) \frac{s_{i}^{2}}{m_{i}} \end{align} \]
比率估计法
\[ \begin{align} \hat{\mu}_{r} &= \frac{\sum_{i=1}^{n} \hat{y}_{i}}{\sum_{i=1}^{n} M_{i}} \\ \widehat{Var}\left(\hat{\mu}_{r}\right) &= \frac{N(N-n)}{n M^2} \cdot \frac{1}{n-1} \sum_{i=1}^{n}\left(\hat{y}_{i}-M_{i} \hat{r}\right)^{2} + \frac{N}{n M^2} \sum_{i=1}^{n} M_{i}\left(M_{i}-m_{i}\right) \frac{s_{i}^{2}}{m_{i}} \end{align} \]
比例概率估计法(PPS)
\[ \begin{align} \hat{\mu}_{p} &= \frac{1}{n} \cdot \sum_{i=1}^{n} {\frac{\hat{y}_{i}}{M_i}} \\ \widehat{Var}\left(\hat{\mu}_{p}\right) &= \frac{1}{n(n-1)} \cdot \sum_{i=1}^{n}\left(\bar{y}_{i}-\hat{\mu}_{p} \right)^{2} \end{align} \]
必要样本量确定
必要样本量的确定需要考虑以下因素:
- 总体特征
- 总体规模
- 总体异质性程度
- 总体方差
- 抽样设计
- 抽样方法
- 抽样效率
- 设计效应
- 估计精度要求
- 可接受的误差水平
- 置信度要求
- 可靠性系数
- 其他因素
- 调查成本
- 应答率
- 可用资源
抽样误差的注意事项
- 选择合适的抽样方法
- 根据总体特征选择适当的抽样方法
- 考虑抽样效率和成本效益
- 正确使用方差计算公式
- 不同抽样方法使用对应的方差计算公式
- 避免错误使用简单随机抽样的方差公式
- 考虑设计效应
- 复杂抽样设计需要考虑设计效应
- 设计效应通常为2左右较为理想
- 样本量确定
- 小规模研究最小样本量建议为30
- 大规模研究需要综合考虑多种因素
- 误差控制
- 注意非抽样误差的控制
- 考虑缺失值的影响
- 提高应答率
抽样误差的实践应用
- 在实际调查中,需要根据具体情况选择合适的抽样方法
- 抽样误差的估计需要考虑调查的实际情况
- 抽样误差的估计需要考虑调查的可行性
- 抽样误差的估计需要考虑调查的经济性
- 抽样误差的估计需要考虑调查的时效性
在实际应用中,需要根据具体情况选择最合适的估计方法,以获得更准确的估计结果。
2.8 问卷设计技术
问卷设计的主要步骤
问卷设计的主要步骤包括:
- 决定所需要的信息
- 根据所需资料,开发个别的问句
- 决定问卷的顺序(ordering)
- 拟定问卷初稿
- 问卷实体制作
- 检讨和修正
- 前测(pretest)
- 定稿
量表设计的基本流程
量表设计的基本流程包括:
A. 确定调查的目的
B. 定义量表结构及其关系 - 需要进行文献综述 - 制定一个概念框架/理论框架
C. 查询可供参考或采用的量表
E. 写出量表的条目
F. 对量表开展试点调查
G. 分析试调数据并相应修订量表
李科特量表
李科特量表(Likert Scale)是一组相互关联的调查项目,通过一组非常具体的一致的回答选项来测度一个特定的目标话题(潜在变量、理论变量)。
- 李科特量表可能是调查研究中最容易被误解、误用、滥用的一个术语或问卷设计技术
- 李科特形态的设问题目并不属于李科特量表
- 即使一个单独的问题可能以陈述的形式伴随着一个反应量表,其选项包括(5分制或7分制形式)非常同意或非常不同意,但这不是李克特量表
量表质量:信度
信度(Reliability)刻画量表的真实得分与实际得分之间的一致性程度(Consistency),同时将评估引起真实得分与实际得分不一致的多种误差来源。
信度类别
- 内部信度(internal):基于量表内部的多个题项,使用克朗巴哈信度系数(Cronbach)计算
- 评估者信度(inter-rater):基于不同评分者打分,使用科恩卡帕系数(Cohen)计算
- 副本信度(parallel):基于量表设计的多个版本,使用等效系数(equivalence)计算
- 重测信度(test–retest):基于不同调查者的多次测试,使用稳定系数(stability)计算
内部信度:克朗巴哈信度系数
克朗巴哈信度(Cronbach Alpha 或\(\alpha\))是表达量表内部一致性程度的一种测度系数,具体计算公式为:
\[ \begin{aligned} \rho_{C C^{\prime}} &= \frac{k}{k-1}\left(1-\frac{\sum \sigma_i^2}{\sigma_C^2}\right) \\ \rho_{C C^{\prime}} &= \frac{k}{k-1}\left(1-\frac{\sum \sigma_i^2}{\sum_{i \neq j} \operatorname{cov}_{i j}+\sum \sigma_i^2}\right) \end{aligned} \]
其中: - 题项\(i\)方差\(\sigma^2_{i}\)(item variance,纵向方差) - 观测得分方差\(\sigma^2_{C}\)(total test variance,横向方差) - 题项之间的协方差\(\operatorname{cov}_{i j}\)
评估者信度
评估者信度用于测度不同评分者打分一致性,可以通过以下系数计算:
评级共识系数(nominal agreement): \[ P_o=\frac{1}{N} \sum_{i=1}^c n_{i i} \]
科恩卡帕系数(Cohen Kappa): \[ \begin{aligned} P_c&=\frac{1}{N^2} \sum_{i=1}^c\left(n_{i+}\right)\left(n_{+i}\right) \\ \kappa&=\frac{P_o-P_c}{1-P_c} \end{aligned} \]
量表质量:效度
效度(Validity)指的是证据和理论在多大程度上支持对量表得分的解释,以达到预期的研究目的。
效度类别
- 内容效度(content relevance):评价量表内容与研究意图的相关程度
- 流程效度(response process):评价受访者的调查认知和参与过程的真实性
- 结构效度(internal structure):评价量表题项和量表成分之间的一致性
- 变量效度(variables relation):评价不同量表之间的关联程度
- 影响效度(consequence effect):评价调研后影响效果与预期的一致性
量表设计的基本原则
量表标签与内容结构一致性
量表标签设定应该与量表内容结构保持一致,避免出现不一致的情况。
题项问题与应答选项一致
问题的表述应该与应答选项保持一致,确保被调查者能够准确理解并做出选择。
问卷设计的基本原则
问题设计的基本原则包括:
- 问题要让受访者充分了解,问句内容不可超出受访者之知识及能力之范围
- 问题是否切合研究假设之需要
- 要能引发受访者真实的反应,而非敷衍了事
- 问项是否含混不清,易引起受访者的误解
- 问题是否涉及社会禁忌、偏好
- 问题是否产生暗示作用
- 便于忠实的记录
- 便于数据处理及数据分析
问卷设计的用词原则
问题设计的用词原则有:
- 使用通用的词汇要浅显易懂
- 问题描写要简单明了
- 语句意义要清楚不能模糊
- 不能假设受测者都懂
- 不能用有偏差误导的字句
- 不要有暗示的作用
- 不要隐藏其它的方案
- 间接问题的利用
- 句子要短而集中,且一个问句只问一个事物、概念或事件
问卷设计的友善原则
卷首语相当于问卷的门面,好的卷首语可以增加被调查者填写问卷的可能性。卷首语主要包括:
- 表明身份
- 说明调查目的
- 作出承诺
- 必要时,可以加上问卷作答所需时间
问卷设计的常见误区
未穷尽所有选项
问题选项设计时,需要补齐所有可能性的选项。对于会出现多种情况的,可以添加一个【其他】,【以上情况都有】选项,保证被调查者有选项可以选择。
不符合惯例
问卷设计出来后,应当先找几个没有参与设计问卷的不同文化水平的人进行试填,大多数问题都可以在试填过程中被发现。
出现生僻用词
在设计选项时,尽可能避免生僻词语,更多的使用大众经常使用的词语。必要时,需在生词旁边进行简单的解释,让被调查者可以正确理解问卷选项的内容。
重点不明
必要时可以采用加”【】“或加着重号等,将重点标注。
未设置甄别式问题
有必要进行检验性题目的设置,剔除无效问卷,从而保证问卷数据的准确可靠。甄别性题目间的位置最好不要太接近,两道题之间选项的内容要打乱。
问卷设计的注意事项
避免提问笼统、抽象
问句的最终落脚点往往是被调查者最后接收到的信息。因此,问句应尽量把问句的主语、谓语、宾语等关系理顺。
避免答案设计重叠
答案选项之间不应存在重叠,而且应该包含所有可能性。
避免双重或多重涵义
问题的含糊往往是对某个容易产生歧义的要素,缺乏限定或限定不清引起的。可参考六要素对照法。
避免超出认知范围
换位思考、设身处地,站在被调查者的视角来审视研究者自己设定的问题。
避免问题与答案不一致
在问卷设计时,一定要注意提问与选项的范围一致、内容一致、口径一致、对应一致。
避免诱导性提问
引导性提问会导致不良后果: - 被调查者不加思考就同意所引导问题中暗示的结论 - 对于一些敏感性问题,在引导性提问下,被调查者不敢表达真实想法 - 引导性提问惯用权威或大多数人的态度,在引导性提问下,被调查者会不敢表达其真实想法
避免强制回答式设问
当预计某些问题回答者可能没有看法时,应在答案中区分出来:没有看法。另外也可以在问题中说明”许多人都没有固定的意见”,这样人们在作决定时的心理压力要小一些,减少臆测的可能性。
处理敏感性和伤害性话题
对于敏感性和伤害性问题的处理对策: - 去掉不必要的敏感性问题 - 通过技术手段降低提问的敏感程度 - 采用非直接、联想式提问 - 将所询问的行为或态度”大众化”
问卷设计的质量控制
甄别性问题
甄别性问题用于检验被调查者是否认真填写问卷,常见的甄别性问题包括: - 要求选择特定选项 - 设置虚构的选项 - 设置重复性问题
这些甄别性问题可以帮助识别无效问卷,提高问卷数据的质量。