定义:对于多个个体在全基因组范围的遗传变异多态性(SNP)进行检测,获得基因型,将基因型与表型进行统计学分析,根据显著性等关系筛选出最有可能影响该性状的遗传变异,目的是通过这种方法找出与变异相关的基因。
表达数量位置的基因座,它指的是染色体上一些能特定调控mRNA和蛋白表达水平的区域,其mRNA/蛋白质的表达水平量与数量性状成比例关系。eQTL analysis是将基因表达水平的变化和基因型连接起来,研究遗传突变与基因表达的相关性。
eQTL可以分为顺式和反式两种
eQTL分析的本质是以全部的DNA变异位点为自变量,轮流以每种mRNA表达量为因变量,用大量的个体数据做样本进行线性回归,得到每一个SNP位点和每一个mRNA表达量间的关系。
回归指的是在数据建模中因变量是定量变量。
线性回归是指,对于自变量
我们要求的是,对于给定的数据点(
其他的回归方式:多元线性回归,方差分析等。
在做eQTL分析时,对于回归模型$Y= \mu + \beta X +\epsilon$其中:
以该方法为例,这是一个研究团队在12年提出的一个R包,相较于其他的的计算方法,它在运行时间上是更有优势的。
这个R包需要genotype,expression,gene location, SNP location,covariates.协变量covariates指的是血型,年龄,性别这些因素。
用作者给提供的数据演示,可以得到以下的结果
因为是想将eQTL的计算方法应用到癌症研究的领域,所以在查找文献时我找到了两篇文献使用这种方法;
第一个是作者使用METABRIC,TCGA,GTEx数据库里面的乳腺癌位点相关的数据做的全基因组关联分析,他做的是顺式的eQTL分析,作者使用的是线性模型,但是没给出一个具体的方式。
而另一篇文献是比较值得借鉴的,作者是用eQTL分析获得乳腺癌的危险位点。在eQTL分析是:
$$
T_i = Sc_i+M_i+\epsilon_i\\epsilon_i=G_i+\omega_i
$$
作者通过这种方式来分别估计了遗传决定因素,体细胞copynumber变化,和甲基化水平对转录丰度的影响。