此文章是vip文章,如何查看?  

1,点击链接获取密钥 http://nicethemes.cn/product/view29882.html

2,在下方输入文章查看密钥即可立即查看当前vip文章


全基因组关联分析项目设计——标记对表型的解释率

  • 时间:
  • 浏览:
  • 来源:互联网

原标题:全基因组关联分析项目设计——标记对表型的解释率

在 上一篇文章 中,周老师 深入浅出地为大家阐明了GWAS分析材料选择的原则和方法。本期文章中,周老师将借用公式为大家讲解标记效应对表型方差的解释率:

在数量性状的GWAS 研究里,我们经常会看到一句话:phenotypic variance explained(以下简称PVE by this QTL is 5% ,翻译过来就是这个QTL解释了表型方差的5%这个数值在很多数量性状(例如,身高、产量)的GWAS结果中都有输出,通常在表头中用R2来表示。

这个指标是什么意思呢?其实就是一个简单的与方差相关的一个指标。现在我来解释一下这个指标是什么意思,以及怎么算的。

1 范例表型以及绘图(excel画的生图,丑了点,凑合看吧)

如图1 ,就是一个展示的范例数据。某个群体1SNP位点与表型间的关系。1a表格中有群体中各个个体的基因型(AAACCC)和表型的信息。对应的基因型,又被转化为了数值(012)。这样便于用加性效应模型进行线性回归的计算。

AC(基因型值1),相当于比AA(基因型值0)多了1C的效应,CC(基因型值2),相当于比AA(基因型值0)多了2C的效应。如果用一个散点图和回归线来展示这个表格的结果,就是类似图1b的效果。你可以注意到,哪怕相同基因型的个体,表型也不是完全相同的。那是因为存在随机误差。

这是1 个数量性状,因此我们就可以将这个SNP位点和表型间开展关联分析。关联分析的模型有很多选择,我们下文会再展开介绍。比如,这里我们可以选择线性回归分析。那么模型的公式就是:

Y=a+bX +e

备注:这是单个位点的关联分析模型。如果给全基因组所有位点都分别分析一次,那就是全基因组关联分析了。所以全基因组关联分析可以理解为很多次的单位点分析。

其中:Y 是表型,X是基因型,b是基因型的效应值,bX就构成了每个个体的基因型效应值(就是你的基因型让你变高或者变低)。a是截距,可以理解为个体表型扣除基因型效应后的本底值。e是随机误差,包含扣除这个位点效应之外的背景基因型效应(其他位置QTL的效应)、环境的效应、检测误差等。如果我们要证明YX相关,本质上就是要证明这个模型中b≠0

那么,在这个模型中有三个部分的方差,且对应的关系公式是:

Var(Y)=Var(bX)+Var(e)

其中:Var(Y) 是这个群体表型的总体方差,Var(bX)是这个SNP位点遗传效应的方差,Var(e)随机误差的方差。如果对应到图1bVar(Y)代表整个群体个体间平均差异度的平方,Var(bX)就是不同基因型个体间(按照基因型对个体分组,然后进行组间比较)平均差异度的平方,Var(e)就是相同基因型(组内)个体间的平均差异度的平方。

那么,这个SNP 位点的解释总体方差的百分比PVE=Var(bX)/Var(Y)从这个公式来看,也可以解读为这个SNP位点的遗传力。

那么,这个PVE 如何计算呢?excel就可以完成。如果你使用excel2016,选择文件”-“选项,然后选择加载项中的分析工具库然后继续在总菜单栏里的数据”-“数据分析,选择回归,就可以进行归回分析的统计了。具体这个操作,也可以自行百度。

2 回归分析excel操作过程截图1

3 回归分析excel操作过程截图2

4 回归分析excel操作过程截图3

完成回归分析后的效果图如下。SNP 效应的总体方差约为55.6,表型总体方差约为68.6,那么基因型效应对表型总体方差的解释率就是两者相除,约为73.7%这个数据也可以用excel的方差分析完成,不过结果数值与回归分析有细微的差异,具体原因我还没有详细研究过。不过,差别细微地可以忽略不计。

5 回归分析excel分析结果

以上分析过程也可以用R语言实现,可以参考omicshare的帖子:

《如何用R 计算自变量(X)对因变量(Y)的方差解释率》

https://www.omicshare.com/forum/forum.php?mod=viewthread&tid=5676&fromuid=12

( 出处: OmicShare Forum)

那么,我们已经初步理解了PVE 的概念和计算方法。我们再多看一个公式,理解影响PVE的因素。如果在一个QTL位点有3种基因型,AAACCCA等位在群体中的频率为pC 等位在群体中的频率为qp+q=1 假设这个QTL位点的加性效应为a(其中a=(uAA-uCC)/2 ,其中uAAu CC分别为群体中AA 基因型或CC基因型个体的表型均值),显性效应为d那么QTL位点的遗传效应方差σ 2(g)= 加性效应方差σ 2(a)+ 显性效应方差σ 2(d)

那么这个位点的加性效应方差σ 2(a)= 2p(1-p)[a+(1-2p)d]2

GWAS 研究中,我们一般使用加性效应模型,不考虑显性效应。所以,假设显性效应不存在,即d=0σ 2(d)=0 那么进一步可以得到:

位点的遗传方差σ 2(g)= σ2(a)= 2a2p(1-p) # 此为最终公式。

一个位点的遗传效应方差σ 2(g) 如果越大,这个位点对整体表型方差的解释率越高。所以,我们关注1 QTLGWAS研究中效应的大小,本质就是决定于这个QTLσ 2(g) 大小从这个最终公式来看,σ2(g) 决定于两个因素:

1 QTL的绝对效应大小a因为a=(uAA-uCC)/2 ,所以a 越大,两种基因型的个体差异越大。

2 QTL两种等位基因在群体的分布频率。我们可以看公式中p(1-p)” 的这部分,你可以注意到,当p=0.5的时候,p(1-p) 数值达到最大(等于0.25)。p越接近1或接近0的时候,这个部分数值都会变小。

也就是说,当这个QTL位点两种等位基因型接近相等的时候,QTL的遗传方差可以达到最大。如果某个等位频率太低,都会大大降低这个位点的遗传方差。这就解释了,GWAS研究中,为什么低频/稀有的QTL很难检测(例如,群体中稀有的抗病基因;与人类复杂疾病相关的稀有突变)。因为频率降低,则意味着QTL遗传方差的降低,从而降低了统计学上的效应,变得更加难以检测。

需要补充的一点是,在实际研究中我们本质上不是计算真实的QTL 对表型的解释率(PEVQTL, 而是计算与QTL连锁的标记(假设我们用的是SNP标记)对表型的解释率(PEVSNP)。

由于SNP 标记与QTL往往不是完全连锁(r2=1 ,所以PEVSNP≤PEVQTL两者的关系是PEVSNP≈r2PEVQTL比如,当SNP QTLr2=0.1 的时候,PEVSNP仅仅为PEV QTL1/10 ,那么这个SNP检测到的关联信号已经非常微弱了。所以,GWAS分析必须保证有足够的标记密度,保证潜在的QTL一定有足够近的SNP与之强连锁。

6 QTL 和与之存在连锁关系的关联标记

霍金说过,一本书多一个公式一半读者。但这篇文章里,不知不觉又多了好多公式。不过这些需要量化的理论,没有公式的支持还真不好解释。希望这些公式能给我们专业的读者带来更精确的概念解析。

责任编辑:

本文链接http://element-ui.cn/news/show-140047.aspx