樣本容量(樣本大小)n≥30的隨機樣本的理解

很多統計學教材中都有提到“樣本容量(樣本大小)n≥30的隨機樣本稱為大樣本”。這個結論很讓人費解:①是不是每次調查(或試驗)隻需要n≥30個對象就可以瞭?②如果我的調查(或試驗)對象有100呢,是不是多出來的70個數據是多餘的?

單從書上的字面意思去理解,似乎是這樣,但大傢都知道這有違常識(調查對象應該越多越好),那這到底是什麼意思呢?做以上理解的同學往往是隻看瞭這句話的前半句“樣本容量(樣本大小)n≥30”,卻沒有想後半句“隨機樣本”。

什麼是隨機樣本?

設總體為(2,4,6,8),抽樣方式為可放回抽樣,請問:

  • 樣本1(n= 3)(2,4,8)是不是隨機樣本?
  • 樣本2(n= 3)(4,6,8)是不是隨機樣本?
  • 樣本3(n= 3)(2,4,8)是不是隨機樣本?
  • 樣本4(n= 3)(2,2,4)是不是隨機樣本?
  • 樣本5(n= 2)(2,4)是不是隨機樣本?
  • 樣本6(n= 2)(6,8)是不是隨機樣本?
  • ……

樣本1、樣本2和樣本3都是有效的隨機樣本。對於可放回抽樣,這樣的樣本有無數個(放回去的魚可能再次被撈上來)。由此可見,“樣本容量(樣本大小)n≥30的隨機樣本”並不是說調查(或試驗)對象隻能有30個。或者說,當調查(或試驗)對象遠大30時,同樣的也可以構建樣本容量(樣本大小)隻有30的樣本,在可放回抽樣(總體無窮大)中,完全可以將多出30個的調查數據放入下一個樣本,如樣本5和樣本6。但顯然,你不能用少於30個調查(或試驗)對象的數據去構造一個樣本容量為30的隨機樣本。

當調查(或試驗)對象剛好等於30時,會出現什麼情況?

  • 樣本7(n= 4)(2,4,6,8)是不是隨機樣本?
  • 樣本8(n= 4)(4,6,2,8)是不是隨機樣本?
  • 樣本9(n= 4)(2,6,4,8)是不是隨機樣本?
  • ……

顯然,樣本7、樣本8、樣本9都是有效的隨機樣本,但此時的樣本就是總體,再多的抽樣也沒意義瞭。

請註意:樣本4不是有效的隨機樣本,n= 2表示一次從樣本中取兩個觀測值,除非總體中有兩個2,否則不能同時取同一個值(你不能把一條魚切成兩半)。

回頭再來看“樣本容量(樣本大小)n≥30的隨機樣本”與調查對象個數之間的關系。

很多同學可能會覺得在調查研究中要構造一個“樣本容量(樣本大小)n≥30的隨機樣本”是一件很簡單的事,因為在我們的調查研究中,很輕易就能調查成百上千個研究對象(如問卷調查),搞一個樣本容量(樣本大小)n≥30的隨機樣本還不是一件輕而易舉的事?其實不然。以樣本容量n=30的隨機樣本為例,假如隻構造1個這樣的樣本,確實很容易,隨機找30個研究對象采集數據即可。但在推斷統計中,這樣的樣本數是越多越好,因為樣本數越多對總體的推斷就越接近,理論上來說,應該是無數個這樣的樣本,就可以無限逼近無窮大總體;回到實際,假若調查對象不允許重復,那麼,即便是隻構造100個這樣的隨機樣本,也意味著要調查30×100=3000個研究對象,或者說即便不一定非要調查3000個研究對象,但做3000次調查是必須的。所以,構建一個“樣本容量(樣本大小)n≥30的隨機樣本”絕非是一件輕松的事。


例1:研究者想調查某校大學生的身高情況,隨機抽取學號尾數為6的倍數的學生作為調查對象,獲得瞭160個數據。設該校有16個學院,那麼這份數據可理解為樣本容量n=16的10個樣本。或,設該校有40個專業,那麼這份數據也可理解為樣本容量n=40的4個樣本。


例2:一傢四口人(爸、媽、兒、女),研究者想通過一個調查知道這傢人的平均身高,如何做?

研究方案:設樣本容量n= 2,即每次調查2個人的身高,做好記錄,形成如表-1的樣本數據。

接下來演示如何通過這份調查數據,推斷這傢人身高的總體分佈情況。

(1)設i=100,即取100份樣本(n=2)數據,計算每份樣本數據的平均值。將這100份樣本數據的平均值(簡稱為樣本均值)做成直方圖會發現,她們已經很接近正態分佈瞭,如圖-1所示。

(2)計算這組樣本均值的平均值和標準差。結果為:

  • 樣本均值的平均值μ= 151.80
  • 樣本均值的標準差σM= 12.63

(3)根據中心極限定理推斷總體均值和總體標準差

  • 總體均值μ= 樣本均值的平均值μ= 151.80
  • 總體標準差σ= 樣本均值的標準差×√n = σM×√n = 12.63×√2 =17.86

由此可以推斷,這傢人的平均身高為151.80 cm,標準差為17.86 cm。

(4)驗算

驗算過程如表-2所示。

從驗算結果可知,由樣本推斷出的總體數值已經非常接近實際總體數值瞭。

證畢!


思考題:設有如圖-2所示的一棵樹,樹葉總數為無窮大,請設計一個隨機抽樣方案來估算樹葉的平均直徑。

要求:樣本容量(樣本大小)n= 25,樣本數i= 100 ,即做2500次測量。

赞(0)