手把手教你如何做泰爾指數分析

泰爾指數分析

泰爾指數是一種衡量‘不平均’的指數,比如用於衡量‘貧富差異’,也或者衡量大氣污染的水平是否一致,二氧化碳排放水平差異情況等。泰爾指數的數學原理是‘熵’,‘熵’是一種衡量數據‘有序性’的指標,當‘熵’值越大時,數據越無序,那麼意味著‘不平均’情況越嚴重。

泰爾指數正式分析前需要瞭解兩個基本的名詞,如下:

結合具體的泰爾指數計算原理,其可分為四種類型的泰爾指數,分別是T指數、L指數、GE1指數和GE0指數,四種類型的指數在原理上稍有區別,但應用上均是對‘不平均’情況的衡量,其中T指數使用最多。比如研究我國貧富差距‘收入不均’問題,但是每個省的GDP或者人口基數並不一致,即計算泰爾指數的時候,如果某個省GDP更多,或者人口更多,那麼其對於整體收不均的影響作用會更高。T指數正是基於GDP作為權重,GDP越大時該省對於整體泰爾指數的影響會越大;類似地,也可使用人口作為權重,當人口越多時,該省對於泰爾指數的影響會越大,L指數正是基於人口作為權重進行計算。基於上述原理,在計算T指數或L指數時,通常需要提供類似GDP和人口共兩項數據。

如果提供的原始數在為人均GDP一項(沒有GDP和人口兩項數據),那麼此時則需要使用GE1或GE0指數,其隻需要提供人均GDP這樣的1項數據進行計算,GE1和GE0是基於廣義熵概念計算得到,二者區別在於廣義熵時的alpha值,GE1時alpha值為1,GEO時alpha值為0,GE1和GE0指數使用相對較少。

除上述外,還需要理解的一個名詞為Group項,計算泰爾指數時,很可能出現‘層次聚集’數據,比如中國包括31省,每個省包括很多個市,每個市包括很多個縣,每個縣還可包括很多個鄉鎮。帶有此類聚集特征的數據,即具有Group項,比如省份、市、縣均為Group項。當數據完全沒有Group項時,比如直接31個省(共31行數據)的GDP和人口,計算泰爾指數,此時則稱為普通泰爾指數。比如數據包括31個省,每個省比如有6個市,共計31*6=186行數據時(省-》市),此時具有1個Group項即省,此時稱為一階泰爾指數。比如數據包括31個省,每個省比如有6個市,每個市有10個縣,那麼此處有2個Group項(省-》市-》縣),分別是省和市,省的層級最高即Group1,市的層級稍低為Group2,此時計算的泰爾指數稱為二階泰爾指數。

理論上還會有三階泰爾指數、四階泰爾指數等,實際情況中由於數據的可獲取性及研究目的需要等,實際使用極少,通常情況下一階泰爾指數較多。SPSSAU默認提供最多兩個Group項即最多二階泰爾指數,如果兩個group項均不放入,那麼為普通泰爾指數,如果放入1個Group項那麼為一階泰爾指數,如果放入2個Group項則為二階泰爾指數。

與此同時,在計算泰爾指數時,很多時候需要對比不同年份數據情況,當數據中包括多個年份時,比如最近10年數據,且31個省,每省6個市,共計為10*31*6=1860行時,可將年份進行設置,系統會自動遍歷計算出分別10年的泰爾指數。


泰爾指數案例

1 背景

當前有中國2012 ~ 2021共計10年各省的GDP數據、人口和人均GDP數據,將省分成七大區域(分別是華北、東北、華東、華中、華南、西南、西北),分析中國人均GDP收入的差異情況,對比各大區域的具體差異情況等,部分數據如下圖所示:

明顯地,數據中包括1個Group項即‘區域’,並且為10年,共計為310行數據,本案例為一階泰爾指數,並且為10年分別進行計算對比。如果省份再繼續往下細分為市,那麼省就是另外一個Group即二階泰爾指數。

2 理論

如果計算泰爾指數時,涉及到一階或者二階,即當提供的數據具有聚集性時,那麼泰爾指數則會進行拆分為比如組內和組間指數。具體說明如下表格:

如果是普通泰爾指數,那麼直接就隻得到1個泰爾指數值。如果是一階泰爾指數,比如本案例為‘區域-》省’這樣的數結構時,泰爾指數可具體細分為組內TWR和組間TBR,比如本案例分為7個區域,那麼7個區域之間的收不均則叫組間TBR,每個區域(比如華北區域)內各個省之間的差異則叫組內TWR。如果是二階泰爾指數,比如‘區域-》省-》市’這樣的數據結構,各個區域之間的差異稱為‘組間TBR’,各個省之間的差異稱為‘省間TBP’,以及各個省包括很多個市,比如浙江省包括10個市,那麼此10個省之間的差異,則稱為‘組內TWP’即省內差異情況。

3 操作

本例子中操作截圖如下:

  • 泰爾指數類型選擇最常用的T指數,T指數時要求提供GDP和人口共兩項數據,以及本案例包括10年,因而將年份放入對應框中。
  • 本案例為一階泰爾指數(區域-》省)結構,Group項為區域,因而將其放入Group1項中。需要提示的是,案例數據最細粒度單位為省,此處省並不Group項。

4 SPSSAU輸出結果

泰爾指數模型輸出泰爾指數分解和貢獻值兩類結果指標,並且以圖形進行展示,說明如下:

當‘普通泰爾指數’即沒有Group項時,僅展示1個泰爾指數值。如果是一階或者二階泰爾指數,則會涉及到泰爾指數分解,以及各Group項對應的泰爾指數,以及各Group項時貢獻值情況。本案例數據為一階泰爾指數,因而會輸出泰爾指數分解結果,Group項時泰爾指數結果。

泰爾指數的理解較為簡單,但其計算公式相對復雜,為更好地理解泰爾指數原理,下述以一階泰爾指數的計算公式為便進行說明。

上述四個式子中,T表示整體泰爾系數,Ti表示第i個區域的泰爾系數,TWR表示組內泰爾系數即區域內部泰爾系數,TBR表示組間泰爾系數即區域之間泰爾系數。Ln表示取對數的意思,各個符號說明如下:

  • i: 區域的編號
  • j: 省的編號
  • Y:GDP加總
  • Yi: 某區域gdp
  • Yij:某區域某省gdp
  • N:人口加總
  • Ni: 某區域人口
  • Nij:某區域某省人口

5文字分析

本案例時泰爾指數分為TWR和TBR,TWR表示組內泰爾系數即各個區域內部的貧富差異(T是泰爾指數的簡寫,W是within即組內的簡寫,R是區域Region的簡寫),TBR表示組間泰爾系數即區域與區域之間的貧富差異情況(T是泰爾指數的簡寫,B是between即組間的簡寫,R是區域Region的簡寫)。整體上看,各個年份上,整體泰爾指數變化不大,意味著各年份對比來看,貧富差異並沒有明顯的變化,從2016年起泰爾系數稍有減少,意味著貧富差異現象整體上有著微弱的減少趨勢。TWR和TBR對比上,TWR相對明顯更高,意味著當前的貧富差異主要是體現在區域與區域之間,而區域內部的貧富差異相對較小。泰爾系數分解可見下圖。

特別提示:

泰爾指數是基於熵值原理進行計算,泰爾系數的大小並無絕對意義,其隻有相對大小意義,並不能說3就比0.1絕對更高,而應該站在同一對比水平上進行對比。

具體針對各個區域上看,整體對比七大區域的貧富差異情況可知,整體上看,華北地區的貧富差異明顯最高,泰爾系數基本均在0.1或者以上,意味著華北地區當前的貧富差異現象相對明顯,可能由於北京作為國傢行政中心極強,但華北的基它地區,比如河北、山西、內蒙古等省市的收入明顯更低導致。接著,華南和華東地區也有著較強的貧富差異現象,但比起華北來看還是較弱。西北地區和西南地區這兩個地區貧富差異現象較弱,另外東北地區和華中地區的貧富現象相對最低,意味著該兩個地區的人均收水平相對更加均衡。

除瞭分析各個區域的泰爾指數得到貧富差異情況外,還可分析各個區域對於整體泰爾指數的影響作用情況即貢獻值分析。

上表格展示各個區域泰爾指數的貢獻情況,本案例數據使用泰爾T指數,其基於GDP作為貢獻值大小標準。因而當某區域的GDP越高時其對整體泰爾指數(即整體貧富差異)的作用力度越大。上表格和下圖可以看到,整體上看,華東地區的貢獻值相對最高,這是由華東地區包括浙江、江蘇、山東等經濟大省決定。而華中、華北、華南對於整體貧富差異的影響作用力度較高,西南地區次之,東北和西北這兩個地區對於泰爾指數的作用力度相對最小。

6 剖析

泰爾指數分析涉及以下幾個關鍵點,分別如下:

  • 特別註意正確的數據格式。比如是‘省-》市’數據,即最小粒度單位是市,那麼有兩列分別標識省和市,但省才是聚集性group。如果有多年數據,那麼其僅僅是重復,行數成年份倍數增長而已。
  • 泰爾指數包括四種類型,T指數、L指數、GE1和GE0,T指數和L指數時,需要傳入比如GDP和人口這兩項數據,因為衡量不平均是由人均GDP決定,T指數計算貢獻值時使用GDP這樣的數據,L指數計算貢獻值時使用L指數這樣的數據,其中T指數使用最多。GE1和GE0這兩個指數使用相對較少,其利用廣義熵進行計算,而且其要求傳入的數據為比如人均GDP這1個數據,GE1時貢獻值是由group內樣本個數及數據大小共同決定,GE0時貢獻值是由group內樣本個數決定。

赞(0)