不同研究方法会产生不同类型数据:
观察数据
调查数据
实验数据
从产生数据的方式方法上又可以有:
问卷数据
访谈数据
文献数据
痕迹数据:大数据。(注意不是痕迹证据!)
在获得数据的同时, 应该还有一份数据,是记录数据获得过程的,通常称之为日志, 它要记录数据是从哪里来的、什么情况下得到的、数据的基本特征又是什么, 比如文字数据有多少页、图片数据有多少张,这就是日志数据
从是否数字化来看:
数字化的数据
非数字化的数据
从是否数值化来看:
数值数据
非数值数据
从具体形态来看:
文本数据:
图片数据:
音频数据:数字化为波形形态的音频数据。
视频数据:数字化为像素点加上波形形态的视频数据。
实物数据:任何有实物才可以完整保存信息的实物载体数据
以上关于数据来源与形式的分类是完全是互斥的吗?
以调查问卷为例:
传统纸版问卷,主要是文字、图片形态的数据。
新媒体电子问卷,不管是哪一个类型的电子问卷,主要是数据形态的数据,当然也会有图片的、音频的、视频的数据。
以上的分类并不完全是互斥的,只是根据显性的特征来做一些划分,其实我们很难找到一个标准把数据的形态类型区分得非常清楚。
数字与数值是一个意思吗?
图片、音频、视频看起来的确是数字的,但数字不等于数值!
传统照片不是数字的。
数码照片的数字指的是像素点的数字
音频、视频是同样的道理。
“老师,不管什么时候我都要用计算机做笔记的。”
信息化时代,传统手写记录的文本数据是不是越来越没有价值?
用计算机或各类终端设备来做电子化记录。
用笔和本子做传统记录。
“老师,我要做一个研究”
“你的数据从哪里来?”
根据数据是否能够直接用于研究分析,数据的状态可以分为:
原始数据:一般不能直接用于研究。
研究数据:是处理为结构化的、有变量、数值、变量、属性标签的数据。
根据研究数据的持续性,数据的状态有:
1.已经存在的数据。公开数据、正式出版数据、发布的数据,都可以直接使用。
政府各类统计数据。包括经济、就业、人口、健康、教育、产业等等数据。
上市公司公开数据。根据相关法律,公司的财务数据、生产数据应该公开。
研究机构或者研究者个人公开的数据。
2.将要产生的数据。是系统采集的、不断在推进补充的数据。
根据研究数据是否由研究者本人产生,数据的状态可分为:
一手数据:是指自己调查获取的数据。自己调查数据是一个不得已的选择,对任何研究者而言,都应该是第二选择而不是第一选择。
二手数据:是指已经被使用过的数据,拿来再做分析。如果你的研究能够使用已经存在的数据,尤其是很多人用过的数据,那么最好用这样的数据(为什么呢?)。
数据的可靠性已经被检验过
研究的成果具有可比性
通过调查来获取数据,需要专门的能力,包括组织能力、获取数据的能力、评估数据质量的能力、有效运用数据的能力,还需要一定要有资源。
研究数据的获取权限一般有如下情形:
无需授权就可以使用的数据。正式出版物提供的数据只需要在使用说明中正式说明出处,就不需要授权。
需要申请授权的、公开的数据。大多数的学术研究数据,如果你要使用,是需要申请并且被授权。
需要通过授权的、未公开的数据。行为痕迹管理机构的数据,包括政府数据、赢利和非赢利服务机构的数据,都属于这类数据。
政府数据:几乎任何一笔收入,都是经过机构管理的,都有痕迹数据。
银行数据:每个人都有银行账号,只要是经过银行卡的,都会留下数据。
电信数据:只要是通过网络通信的数据,都会留下数据记录。
“老师,他们保存多久呀?”
搜索引擎:
国内文献和统计数据:
中国知网(内含统计年鉴资源)——学校图书馆网站
CNKI中国知网-CNKI中国期刊全文数据库
中国知网-统计年鉴数据库
搜数网——学校购买暂时无访问权限
人大经济论坛:论坛币下载
国外文献和统计数据:
电子期刊:Wiley Online Library
电子期刊:ScienceDirect
电子期刊:Emerald
学位论文:ProQuest 学位论文全文库
以下是一些重要的国际组织开放的宏观数据集:
国际粮农组织FAO粮食和畜产品数据集:FAO stat。
联合国UN贸易数据集:UN Comtrade。
世界银行世界发展指数数据集:World Development Indicators。
世贸组织区域贸易协定数据集:Regional Trade Agreements Database。
国际货币基金组织IMF宏观经济数据集:International Financial Statistics。
世界卫生组织全球健康数据集:The World health statistics。
上述数据集具有如下几个特点:
数据集具有开放性,可以直接获取。
数据集具有权威性,是国际组织公开发布的数据。
数据集具有系统性,是国际组织多年积累的数据。
数据集具有复杂性,一般具有结构化关联数据子集。
因此,上述数据集的获取,我们需要注意:
具备对数据集的专业内容的深度理解能力。
具备对数据集的结构化关系的数据处理能力。
具备对数据集选择性参数化编程的调用能力。
几个主要的数据来源:
美国大学联盟数据集成中心(ICPSR)。机构在密歇根,是世界上最大的学术数据源。
美国芝加哥大学-广泛社会调查(GSS)
美国芝加哥大学-收入动态调查面板数据(PSID)
美国密歇根大学-健康和退休调查数据(HRS),公开自1990年
英国艾塞克斯大学-认识社会调查数据库(Understanding Society)。
北京大学中国社会科学调查中心(ISSS)。主要的中国家庭追踪调查(CFPS)、中国健康与养老追踪调查(CHARLS)
中国人民大学中国调查与数据中心(NSRC)。主要的数据源有中国综合社会调查(CGSS
)、中国教育追踪调查(CEPS
)、中国宗教调查(CRS
)、中国老年社会追踪调查(CLASS
)、中国国家调查数据库(CNSDA
)
西南财经大学中国家庭金融调查与研究中心,发布中国家庭金融调查数据集CHFS
。
中国疾病控制中心(CDC)。主要的数据源包括了慢病、流行病、艾滋病等多种涉及健康与疾病的调查。
完整的子数据集包括:
本项目共3份文档/数据
中国综合社会调查(2021)问卷, 格式: PDF
原始数据,格式stata
,变量数700,样本量8148
原始数据,格式spss
,变量数700,样本量8148
二手数据可以进行的反复多次的再分析。
使用二手数据,应按照学术规范说明数据来源。(千万别忘记!)
使用二手数据,往往面临数据处理、转换、加工等技术性的问题。
使用综合性数据库还是专门性数据库,这是个问题!
国外绝大部分高质量经济学期刊都明确要求作者提供能供读者复制论文结果的数据或数据申请渠道及分析代码。近些年,国内经济学期刊也陆续提出此要求。
对于CFPS用户来说,应如何回应期刊这一要求?能否将CFPS 微观数据直接放在期刊网站上?
在CFPS 用户注册申请数据的用户协议中已明确指出,用户不能将CFPS 微观数据直接放置于包括期刊网站在内的第三方平台上,无论是原始完整数据,还是整理提取后的数据(如提取部分变量、进行清理后的子样本数据集等)。
CFPS微观数据的版权归北京大学中国社会科学调查中心所有,不可在未经授权的情况下被分享于其他平台。
互联网(WWW
)世界天然存放了海量的公开信息和数据,是我们收集二手数据的一个重要平台。
主要的开放形式有:
网站零散化页面(信息比较破碎,展示格式不统一):例如高新技术企业认定工作网
网站结构化页面(信息比较规范,展示格式比较统一):例如京东商城、全国农产品批发市场价格网、海关统计数据查询平台等。
需要的相关技能:
网络爬虫编程能力
HTML、SQL和API知识等
西安市农业农村局(网址)每日会发布不同农产品、多个市场(批发市场、零售市场如超市等)的农产品价格数据。
网站页面分析:
不需要登陆权限;
但是不具备table元素。
编程爬虫自动化数据抓取方案:
按页数(选择最大页),循环抓取页面
从最后一页开始抓取页面,然后依次往前一页抓取页面
每次抓取页面,把数据表增量式写入数据库data/market -xian/market.db
的相应table中去
自填式问卷调查:没有调查员协助的情况下由被调查者自己完成调查问卷 问卷递送方法:调查员分发、邮寄、网络、媒体
优点:要求调查问卷结构严谨,有清楚的说明
缺点:
面访式问卷调查:调查员与被调查者面对面提问、被调查者回答的一种调查方式。
优点:
缺点:
电话式问卷调查:通过电话向被调查者实施调查。
特点:
局限性:
此处略
学生:“既然有这么多的数据,这门课是不是可以不学了?”
回答:“这门课你不仅要学,而且要认认真真地学”
掌握数据采集的知识与能力,是用好数据的基础。如果不了解数据是怎么获得的,就没有能力甄别已有的数据到底可不可靠、可不可用,甚至都不知道上哪儿去找数据。
第一,研究数据有多种、多重的来源,好好运用既有的数据是研究者的第一选择;
第二,获取已经存在的数据有很多个方法,也有多种途径
第三,万一没有办法获取需要的研究数据,那就只好自己动手。
第2章 数据收集、整理和清洗 [2-2节] 数据收集