基於CHFS的微觀數據處理思路匯總

一、微觀數據概覽

微觀數據說起來就是基於傢庭、個人進行調查的數據,主要通過調查問卷形式得到的數據。數據獲取的頻率一般是年度,季度和月度的也有見到過。

(一)國內主要公開微觀數據庫概覽

國內比較權威的大型微觀數據庫主要有以下幾類

1.中國傢庭金融調查與研究中心CHFS

中國傢庭金融調查(China Household Finance Survey,CHFS),旨在收集有關傢庭金融微觀層次的相關信息,主要內容包括:住房資產與金融財富、負債與信貸約束、收入與消費、社會保障與保險、代際轉移支付、人口特征與就業以及支付習慣等相關信息,以便為學術研究和政府決策提供高質量的微觀傢庭金融數據,對傢庭經濟、金融行為進行瞭全面細致的刻畫。現已經在2011年、2013年、2015年和2017年四次成功實施全國范圍內的傢庭隨機抽樣調查。

2.中國傢庭追蹤調查CFPS

中國傢庭追蹤調查(China Family Panel Studies,CFPS),旨在通過跟蹤收集個體、傢庭、社區三個層次的數據,反映中國社會、經濟、人口、教育和健康的變遷,為學術研究和公共政策分析提供數據基礎。 CFPS重點關註中國居民的經濟與非經濟福利,以及包括經濟活動、教育成果、傢庭關系與傢庭動態、人口遷移、健康等在內的諸多研究主題,是一項全國性、大規模、多學科的社會跟蹤調查項目。CFPS樣本覆蓋25個省/市/自治區,目標樣本規模為16000戶,調查對象包含樣本傢戶中的全部傢庭成員。CFPS在2008、2009兩年在北京、上海、廣東三地分別開展瞭初訪與追訪的測試調查,並於2010年正式開展訪問。經2010年基線調查界定出來的所有基線傢庭成員及其今後的血緣/領養子女將作為CFPS的基因成員,成為永久追蹤對象。CFPS調查問卷共有社區問卷、傢庭問卷、成人問卷和少兒問卷四種主體問卷類型,並在此基礎上不斷發展出針對不同性質傢庭成員的長問卷、短問卷、代答問卷、電訪問卷等多種問卷類型。

3.中國健康與養老追蹤調查CHARLS

中國健康與養老追蹤調查(China Health and Retirement Longitudinal Study, CHARLS),旨在收集一套代表中國45歲及以上中老年人傢庭和個人的高質量微觀數據,用以分析我國人口老齡化問題,推動老齡化問題的跨學科研究。CHARLS全國基線調查於2011年開展,覆蓋150個縣級單位,450個村級單位,約1萬戶傢庭中的1.7萬人。這些樣本以後每兩到三年追蹤一次。

4.中國勞動力動態調查CLDS

中國勞動力動態調查(China Labor-force Dynamic Survey,CLDS)通過對中國城市和農村的村居進行兩年一次的追蹤調查,建立瞭以勞動力為調查對象的綜合性數據庫,包含瞭勞動力個體、傢庭和社區三個層次的追蹤和橫截面數據,可為實證導向的理論研究和政策研究提供高質量的基礎數據。目前,CLDS已完成2011年廣東省試調查、2012年全國基線調查、2014年追蹤調查和2016年追蹤調查。

5.其他數據庫:北大數字普惠金融數據庫

數字普惠金融指數中,編制瞭全國內地31個省(直轄市、自治區,簡稱“省”)、337個地級以上城市(地區、自治州、盟等,簡稱“城市”),以及約2800個縣(縣級市、旗、市轄區等,簡稱“縣域”)三個層級的數字普惠金融指數②,省級和城市級指數時間跨度為2011-2020年,縣域指數時間跨度為2014-2020年。在總指數基礎上,從不同維度編制瞭數字普惠金融的覆蓋廣度、使用深度和數字化程度指數,以及支付、保險、貨幣基金、信用服務、投資、信貸等分類指數

快速接口:國泰安數據庫內部的公開數據中心

國泰安數據庫公開數據

6.外文常見數據庫

(二)數據庫使用基本指南

首先,瀏覽公開數據庫的官網,對數據庫主導方、調查方、調查頻率、主要調查內容進行大致瞭解。

其次,獲取公開數據。數據一般包含問卷、dta格式數據、其他說明文件。熟悉問卷大致內容,對照著問卷問題查看dta格式數據中的變量儲存情況,註意查看數據是否和問卷號碼不一致。

最後,構建獲取自己需要的變量,對數據進行基本的處理。

註意:

1.調查對象動態變化。每次的調查對象不一定是固定的,調查的區域和人員也有可能會發生變化,每年數據描述性特征可能發生改變。

2.問卷問題動態變化。每次的調查問卷問題不是完全相同的,所以在構建面板數據的時候可能會有的變量在某一年存在而某一年沒有。

3.數據公佈動態變化。每次公佈的數據可能也不同,為瞭保護受訪戶隱私,有些變量可能被處理成瞭偽代碼。(eg.為瞭保護受訪戶隱私,受訪戶的區縣代碼可能被設置成瞭偽代碼)

二、數據處理基本指南

微觀數據處理首先根據一次調查處理問卷內部的數據,其次將問卷數據截面合橫向並成橫截面數據,最後將每一年的橫截面數據縱向合並成面板數據。

(如果隻是針對某一個問卷數據,可以考慮先講一個問卷的數據處理成時間序列數據,再考慮橫向合並)

(一)截面數據處理

1.基本數據處理步驟

(1)生成、構建所需要的變量(為瞭保證原始數據不受到破壞);

(2)保存處理後的數據並且命名;

(3)合並處理後的數據。

  • 常用命令:gen 、egen、replace、label、rename、destring、encode、decode、bysort

2.以chfs2017年的截面單個問卷數據處理為例:

前設:

/*==================================================
project: chfs2017年數據處理
Author: 木瓜不瓜
E-email: yerp2022@outlook.com
==================================================*/

/*==================================================
0: Program set up
==================================================*/
drop _all // 刪掉數據庫中所有變量和數據

* 創建子文件夾,可以直接修改路徑創建研究話題
global root= "/Users/yyy/Desktop/chfs_data" //可以修改根目錄
global dofiles= "$root/Dofiles" //dofile存儲文檔
global raw_data= "$root/Raw_data" //原始數據存儲文檔
global working_data= "$root/Working_data" //處理後數據保留文檔

* 設定chfs2017年數據文件夾路徑
global chfs2015rawdata="$raw_data/2015CHFS年傢庭金融調查數據庫/CHFS數據-2015/2015年中國傢庭金融調查數據dta格式-stata14以上版本"
global chfs2017rawdata= "$raw_data/2017CHFS年傢庭金融調查數據庫/2017年傢庭金融調查數據_數據集_14版"
global chfs2019rawdata="$raw_data/2019CHFS年傢庭金融調查數據庫/CHFS數據-2019/CHFS2019年調查數據-stata14版本"

赞(0)