面板數據模型（Panel Data）原理及其實現

2023/3/11

一、原理與用途

1.1 用途與目的

面板數據模型用於分析面板數據中各自變量X對因變量Y的影響。

常見的數據形式有時間序列數據（Time series data），截面數據（Cross-sectional data）和面板數據（Panel data）。從維度來看，時間序列數據和截面數據均為一維。面板數據可以看做為時間序列與截面混合數據，是截面上個體在不同時點重復觀測數據，因此它是二維數據。

截面數據（Cross-sectional data）指某個地理單元在某個時間點的數據，如廣州市2020年GDP數據。

時間序列數據（Time series data）指某個地理單元在多個連續時間點的序列數據，如廣州市1990-2020年歷年GDP數據。

面板數據（panel data）是指不同對象在不同時間上的指標數據。比如100個公司，每個公司有5年的數據，即100*5=500行數據。如下圖：每個公司編號下有5年（2011~2015）的數據。在實際研究中，需要首先告訴SPSSAU，研究對象（公司編號）和時間點（年份）分別是什麼。又比如廣州市各區縣1990-2020年每間隔5年的GDP及其影響因素數據。

如果100個公司，每個公司5年，總計500行並沒有缺失數據，此種數據叫平衡數據。如果出現個別公司少瞭某個的數據，此種數據叫不平衡數據。通常，平衡數據適用固定效應面板模型，不平衡數據適用隨機隨機效應面板模型。
面板數據形式如下：

以上數據形式中，若隻有地區項稱為截面數據，若隻有時間項稱為時間序列數據。

1.2 使用模型前的數據檢驗

（1）分析數據的平穩性

面板數據模型在回歸前需檢驗數據的平穩性。為瞭避免偽回歸，確保估計結果的有效性，我們必須對各面板序列的平穩性進行檢驗。而檢驗數據平穩性最常用的辦法就是單位根檢驗。

單位根檢驗通過分析t值，分析其是否可以顯著地拒絕序列不平穩的原假設（p<0.05），若呈顯著性，表明拒絕序列不平穩的原假設，該序列為一個平穩的時間序列；若不呈顯著性，則對數據進行二階甚至高階差分後檢驗，直至序列平穩為止，一般不超過二階差分。

（2）協整檢驗或模型修正

協整檢驗是考察變量間長期均衡關系的方法。協整是指若兩個或多個非平穩的變量序列，其某個線性組合後的序列呈平穩性。此時我們稱這些變量序列間有協整關系存在。因此協整的要求或前提是同階單整。

1.3 面板數據模型的三種形式

面板數據模型一般有三種形式可以選擇：混合估計模型、固定效應模型、隨機效應模型：

1.3.1 混合估計模型（POOL）

混合模型的特點是無論對任何個體或者截面，回歸系數都是相同的。即不分組的全局OLS回歸。

不同個體之間不存在差異，不同時間項之間也不存在顯著性差異，可以直接把面板數據混合在一起用普通最小二乘法估計參數。

1.3.2 固定效應模型（FE）

固定效應模型可分為三類：個體固定模型、時間固定效應模型、雙向固定效應模型。

（1）個體固定效應模型：個體固定效應模型是對於不同的時間序列（個體）隻有截距項不同的模型：

從時間和個體上看，面板數據回歸模型的解釋變量對被解釋變量的邊際影響均是相同的，而目除模型的解釋變量之外，影響被解釋變量的其他所有（未包括在回歸模型或不可觀測的）確定性變量的效應隻是隨個體變化而不隨時間變化。

（2）時點固定效應模型：時點固定效應模型就是對於不同的截面（時點）有不同截距的模型。如果確知對於不同的截面，模型的截距顯著不同，但是對於不同的時間序列（個體）截距是相同的，那麼應該建立時點固定效應摸型：

（3）時點個體固定效應模型：時點個體固定效應模型就是對於不同的截面（時點）、不同的時間序列（個體）都有不同截距的模型。如果確知對於不同的截面、不同的時間序列（個體）模型的截距都顯著不相同，那麼應該建立時點個體固定效應模型：

此處的 FE 模型是僅指個體固定效應模型，它刻畫瞭不同個體的特殊影響。而時間固定效應模型刻畫瞭不同時間的特殊影響。

1.3.3 隨機效應模型（RE）

隨機效應模型與固定效應模型FE的區別在於對個體差別的定義，固定效應模型刻畫瞭不同個體的特殊影響，個體間的差別反映在每個個體都有各自截距項；而隨機效應模型則假設個體間的差別是隨機的。由此固定效應模型更適合用於研究樣本之間的區別，而隨機效應更適合用於由樣本來推斷總體特征。比如，若假定想比較三種藥物的療效，可以直接建立固定效應模型FE；如果研究者的目的不是比較這三種藥物的療效差異，而是想要瞭解這三種藥物所代表的三類藥物的療效差異，那麼這就是隨機效應模型RE。

在面板數據模型形式的選擇方法上，我們經常采用F檢驗決定選用 POOL 模型還是 FE 模型，用 Breusch-Pagan 檢驗決定選用 RE 模型還是 POOL 模型，用 Hausman 檢驗決定選擇 RE 模型還是 FE 模型。如下圖所示：

根據各個形式的面板模型的結果進行對比，若在各個模型得F檢驗都通過的前提下，建議結合估計參數的顯著性來確定面板模型。

1.4 模型檢驗與選擇

面板數據進行回歸影響關系研究時，即稱為面板模型（面板回歸）。一般情況下，面板模型可繼續分為三種類型，分別是FE模型（固定效應），POOL模型(就是普通的OLS回歸，也叫混合效應)和RE模型（隨機效應）。最終應該選擇哪個模型，可通過各個檢驗進行判斷。SPSSAU分別進行F檢驗，BP檢驗和Hausman檢驗（豪斯曼檢驗），以判斷出最終應該使用哪個模型。

F檢驗用於判斷FE和POOL模型，如果p 值小於0.05，則應該以FE模型為準。BP檢驗用於判斷RE和POOL模型，如果p 值小於0.05，則應該以RE模型為準。Hausman檢驗用於判斷FE和RE模型，如果p 值小於0.05，則應該以FE模型為準。結合三個檢驗，最終判斷出哪個模型最優。

檢驗類型	檢驗目的	檢驗值	檢驗結論
F檢驗	FE模型和POOL模型比較選擇	p 值<0.05	FE模型
BP檢驗	RE模型和POOL模型比較選擇	p 值<0.05	RE模型
Hausman檢驗	FE模型和RE模型比較選擇	p 值<0.05	FE模型

特別提示

除瞭F檢驗，BP檢驗和經典的Hausman檢驗（豪斯曼檢驗）外，可能還有其它檢驗，但SPSSAU暫未提供。
如果是經濟類數據，多數情況下FE模型更優，因而很多研究直接默認不檢驗直接使用FE模型。

1.5 示例

【案例介紹】

根據 10 個地區（個體項）不同年份（時間項）的幸福度（因變量），以身體健康水平、受教育水平、經濟水平、情感支持為自變量，建立面板模型。

【軟件操作】

面板模型不支持自變量 x 為二分類以上的定類變量，如果有3個及以上的類別變量，那麼建議使用數據處理功能轉化為為虛擬變量(啞變量)然後再納入模型。

【結果解讀】

1）模型選擇

根據 F 檢驗，顯著性 P 值為 0.034，水平上呈現顯著性，拒絕原假設，選擇 FE 模型。

根據 Breusch-Pagan 檢驗，顯著性 P 值為 0.801，不呈現顯著性，不能拒絕原假設，選擇 POOL 模型。

根據 Hausman 檢驗，顯著性 P 值為0，水平上呈現顯著性，拒絕原假設，選擇 FE 模型。

綜上考慮，這裡選取FE模型。

三個檢驗是為瞭確定個體固定效應的存在，而不針對於時間固定效應。若是想檢驗時間固定效應是否存在，建議線性回歸最小二乘方法，將時間項化成啞變量納入模型中，如果時間項基本均呈現出顯著性，說明可以考慮時間固定效應。若是證明既存在個體固定又存在時間固定，那麼就可以建立用個體-時間雙向固定效應模型。

2）面板模型結果

由於在之前的檢驗中選擇瞭 FE 固定效應模型，所以這裡隻對該模型的估計結果進行分析（其他兩種模型SPSSPRO也有展示）。FE 固定效應模型的 F 檢驗結果顯示，顯著性 p 值為 0.003***，水平上呈現顯著性，拒絕原假設，因此模型是有效的。

二、面板數據分析的Stata實現

面板數據模型的實現方法有：（1）Eviews軟件，（2）Stata軟件，（3）R語言，（4）SPSSAU在線工具。

2.1 案例一：采用面板數據模型分析GDP與儲蓄、人口、城鎮化率和教育支出的關系

Stata代碼如下：

* SPSS在線_SPSSAU_面板模型分析 * https://spssau.com/helps/conometricstudy/panelmodel.html


clear

cls

pwd

cd C:UsersAdministratorDownloads

log using filename

import excel using "paneldata.xls", sheet("Sheet1") cellrange(A1:G100) first clear

save allvar.dta, replace

use allvar.dta, clear

describe

list

summarize
egen city = group(地區)		// string to numeric

rename 日期 year			// rename old_varname new_varname

rename X1城鄉居民年末儲蓄存款 x1

rename X2年末常住人口 x2

rename X3城鎮化率 x3

rename X4教育支出 x4
xtset city year

xtreg lnGDP x1 x2 x3 x4, fe

est store fe
xtreg lnGDP x1 x2 x3 x4, re

est store re
hausman fe re

// exit, clear