正態分佈、偏態分佈、中位數和平均數以及統計指標選擇的原則

介紹幾個概念,正態分佈、偏態分佈、中位數和平均數。

正態分佈是數學和統計學中非常常見的一個概念,是連續隨機變量概率分佈的一種,自然界、人類社會、心理和教育中大量現象均按正態形式分佈,例如能力的高低,學生成績的好壞等都屬於正態分佈。

比如男性或者女性的身高,就是正態分佈。特征很明顯,偏高和偏低的身高都屬於少數,並且越高和越低身高的人數越少,大多數人集中在正態身高范圍內。

既然有正態分佈,同時自然有偏態分佈,那就是兩端不對稱的形態,也可以叫正(左)偏態和負(右)偏態。

而偏態與正態的差別就反應在中位數和平均數上瞭。

中位數是一串有序數字中居中的數字,而平均數很好理解,一串數字的綜合除以個數就行瞭。

比如說一串數字是[1,2,3,4,100]。

那麼中位數就是3,而平均數是(1+2+3+4+100)/5 = 22。

如下圖所示,左偏或者正偏態分佈的中位數 > 平均數,而右偏或者負偏態相反。

在某些問題上選擇中位數和平均數來作為指標,其實根本不是一個統計學上的問題,而是一個「分析決策」的問題。

我們不拿工資舉例,而是拿你是一個班的班主任來舉例,如果你班上差生多,優等生少,那是不是成績就滿足瞭右偏態分佈,那麼這種情況下中位數 > 平均數,那你會往外面報哪個?如果是我會報好看的那個數。

其實所有的這類型事情都一樣,統計學或者數學隻是工具,而「分析決策」和「決策激勵策略」才是選擇某個統計值的最重要原因。

赞(0)