關聯分析的基礎——連鎖不平衡

連鎖不平衡(linkage disequilibrium, LD)指群體內不同位點等位基因間的非隨機關聯,重點就三個字:非隨機。如果不好理解,先從反面來看,以此相對的另一個概念就是連鎖平衡(linkage equilibrium, LE),也就是不同位點等位基因之間是隨機遺傳的,這個我們熟悉,不就是兩個獨立事情麼,今天下雨和後天下雨之間沒有聯系,是獨立的;拋兩次硬幣都正面向上的概率是0.5X0.5=0.25。所以我一直不喜歡這個連鎖平不平衡的概念,非得這麼繞把人搞懵,簡單來說,連鎖不平衡就是連鎖,不獨立。

兩種情況

假如有兩個位點,等位基因分別是A,a和B,b。如果他們是完全獨立遺傳,那麼後代出現AB的概率理論上是25%,Ab是25%;而如果他們是完全連鎖的,那麼後代出現AB的概率理論上是50%,而Ab是0%。,我們發現基因型之間的概率相差較大,這兩種情況對我們理解LD非常有幫助,第一種情況兩位點是獨立遺傳的,也就是說不連鎖,不存在LD,第二種情況則是完全連鎖,也就是非常徹底的LD。那麼如何度量位點之間的LD?

連鎖平衡情況下,兩個位點4種等位基因的遺傳如下:

由4種等位基因(allele)的頻率可以得到4種等位基因型(單倍型,haplotype)的頻率,因為獨立遺傳所以就是概率相乘。真實觀測到的基因型頻率表示為:

因為真實情況下有連鎖,所以P11和p1q1是不相等的,兩者間的差異大小就度量瞭LD。

度量位點間LD的基本指標為

PA為位點1的等位基因A的頻率,PB為位點2的等位基因B的頻率,PAB單倍型AB的頻率。DAB度量瞭單倍型頻率偏離其期望頻率的程度。如果D為0,也就是AB單倍型出現的頻率等於期望頻率,意味著兩位點間達到瞭連鎖平衡(LE),如果D不為0,那就是存在LD,D越大代表連鎖不平衡程度越大。

有瞭D的計算方法,基因型頻率可以表示為

由於D受等位基因頻率影響較大,因此通常使用標準化的D`和r^2兩個指標來度量群體的連鎖不平衡。

文獻中一般用的也是r^2。

赞(0)