Stata 處理異常數據--縮尾處理

大傢在寫論文時可能經常會遇到大數據樣本中異常數據批量剔除的問題,本文在於向大傢推薦在Stata中運用winsorize方法,來對數據進行處理(縮尾使數據平滑,或直接刪除),經試驗有效,希望有所幫助。另,此方法借鑒於人大經濟論壇的相關技術貼,在此向這些無私奉獻的老師和大牛們致以崇高的敬意!

打開stata,在命令行輸入ssc install winsor2, replace,自動安裝 winsor2

輸入命令winsor2 變量名 變量名, replace cuts(1 99),此條命令是先找到各個變量的1%,99%所對應的分位數,比如對於變量ac1,其分位數分別為a、b,那麼將數據中小於a的數替換成a,將大於b的數替換成b,原始數據直接變為新數據,這樣就是縮尾,使數據平滑(口徑為1%)。若輸入命令winsor2 變量名 變量名, replace cuts(1 99) trim,則不替換,將小於a和大於b的直接刪除

圖顯示的是命令winsor2 ac1 ac2, replace cuts(1 99) trim命令的執行結果,大傢看到數據表中的“.”,即是刪除完異常值後的結果,批量處理後可以File-Export將數據導出,在Excel上排序後即可將其刪除(或在STATA上用其他命令也可)

赞(0)