大家好,我是经管社科数据小助手,作为经济学专业毕业的我,深切了解经管 类 学生和学者在数据搜集上耗费的巨大精力。基于我们多年对经管社科领域的辅导经验,我们帮助大家总结了在实证分析部分选取数据的经验,希望对大家有一定的帮助。
在确定选题后,我们就要着手进行数据样本的确定和搜集了。我们选择数据的原则是根据所研究的问题以及数据可得性确定最合适的样本。经管研究的数据大致分五个层次:
1、企业层:上市公司、工业企业、微观经营主体等,变量最丰富,实证最成熟
2、国家/省级层:各国或省份层面,宏观政策或者国际经济研究常用,数据规范但颗粒度粗
3、地级市层:城市层面,中观研究的主力,兼顾颗粒度和数据可得性
4、县域层:区县层面,数据质量参差不齐但颗粒度最细
5、微观调查层:CFPS、CHFS等家庭个人调查数据、以及其他以个体行为为对象的微观数据,适合研究微观行为机制
每个层次的数据来源、常见变量、处理方式都不一样。本文从省级层面进行简要介绍,其他层面的介绍见下方目录,希望对大家有所帮助。
目录:
1、【企业篇】上市公司数据怎么选:
https://blog.csdn.net/xiaozhuzhu1995/article/details/160482153?spm=1001.2014.3001.5501
2、【省级篇】省级面板数据避坑指南:
即本文。
3、【地级市篇】城市数据的选择与处理:
https://blog.csdn.net/xiaozhuzhu1995/article/details/160482376?spm=1001.2014.3001.5501
4、【县域篇】 县域数据 的使用注意事项:
https://blog.csdn.net/xiaozhuzhu1995/article/details/160482427?spm=1001.2014.3001.5502
5、【微观篇】CFPS、CHFS等调查数据使用指南:
https://blog.csdn.net/xiaozhuzhu1995/article/details/160482491?spm=1001.2014.3001.5502
【省级篇】省级面板数据避坑指南
省级数据是宏观政策研究的主力,比如研究某项政策对省份经济发展的影响、营商环境的经济效应等。
什么时候用省级数据
题目里出现"省级""省份""区域政策""宏观"等关键词,或者研究的是政策对省级层面指标的影响,基本就是省级数据的主场。
常用省级数据
| 数据类型 | 用途 |
|---|---|
| GDP、财政收支、人口 | 基础宏观经济变量 |
| 樊纲市场化指数 | 衡量地区市场化程度,做营商环境研究必备 |
| 数字经济指数 | 研究数字化转型、数字经济发展 |
| 经济高质量发展指数 | 新发展理念下的综合评价指标 |
| EPU指数(经济政策不确定性) | 研究政策不确定性对经济行为的影响 |
| 产业结构升级指数 | 研究产业结构调整 |
| 碳排放、环境规制数据 | 绿色经济、环境政策研究 |
| 气候风险指数 | 研究气候变化的经济影响 |
常见坑
1. 数据年份不一致
不同统计年鉴的发布时间有差异,比如2024年的年鉴可能只到2023年数据。另外注意,有些指标是年度数据,有些是季度数据,合并前要确认清楚。
2. 政策变量要核实来源
做DID研究时,政策试点的批次和名单要查官方文件确认。比如"低碳城市试点"先后公布了好几批,不同期次的企业/城市要区分清楚。
3. 插值填充要谨慎
省级数据相对完整,但如果遇到某些年份缺失,常见的做法是用插值法补全。建议在附录或者脚注中说明补全方法,否则审稿人可能会质疑。
4. 样本量问题
省级面板最多也就300多个观测值(30个省×10年),做回归时自由度有限。如果还要做分组回归或者交互项,样本量会进一步压缩,这种情况下建议考虑用聚类标准误来修正。
省级数据最大的优势是政策研究天然适合——很多宏观政策本身就是省级层面出台的。但要注意,宏观数据颗粒度粗,很多微观机制无法直接验证,需要在理论部分说清楚。