作者:Resther审稿:童蒙编辑:angelica
什么是TWAS对GWAS(genome-wide association study, 全基因组关联分析)大家应该比较熟悉,是分析遗传变异(genotype, 如SNP)与表型(phenotype)之间的关联。如果某个SNP总是和某种疾病同时出现,那么可以推测这个SNP极有可能与此疾病有关,也就是这个SNP和这个phenotype协同变化,有相关性。但基于GWAS的结果,仅能给出候选的染色体区域,无法确切定位致病的候选基因。为了进一步缩小候选基因的范围,研究者提出了很多方法,全转录组关联分析TWAS (transcriptome-wide association)是其中一种。TWAS是把转录调控(expression)作为遗传变异(genotype)和表型(phenotype)之间的中介,将单个遗传变异与表型的关联转换成基因/转录本与表型的关联。
TWAS的研究思路第一步,基于reference panel来建模,构建SNP和基因表达量之间的关系。reference panel中的样本同时拥有基因分型和表达量的结果,根据距离确定基因对应的SNP位点,比如选择基因上下游500kb或者1Mb范围内的SNP位点,拟合这些SNP位点和基因表达量之间的关系。第二步,用第一步建模的结果来预测另外一个队列的基因表达量,这个队列中的样本量只有GWAS结果,称之为gwas cohort, 这一步可以看做是对gwas cohort中的基因表达量进行填充。第三步,用填充之后的基因表达量来分析基因和性状之间的关联。
从上述研究思路中可以看到,TWAS的性能主要受到两方面影响:(1)从SNP预测基因表达的准确性;(2)基因表达和表型的关联分析。TWAS的分析方法PrediXcan2015年,Eric R Gamazon等人为了建立起受遗传调控的基因表达与性状之间的关系,提出了一种方法PrediXcan。
整个工作流程分为两步:(1)估算SNP调控的基因表达水平;(2)建立基因表达水平与性状之间的关联。第一步中,作者利用GTEx Project、GEUVADIS 和 DGN数据库中基因型数据和基因表达数据做训练集,用弹性神经网络进行机器学习训练,并将训练好的权重参数储存在PredictDB数据库中。然后利用该模型估算GWAS数据中的基因型数据SNP对应的表达量。得到表达数据之后,再用logistic regression建立起基因表达与性状之间的关系。升级版的分析方法MR-JTI2020年10月,Eric R Gamazon课题组提出MR-JTI(Mendelian randomization & joint-tissue imputation) 方法,对TWAS分析做了两个优化:第一,JTI方法可以提高表达量预测模型的精度,从而增加关联分析的检验效能;第二,MR方法可以解决基因多效性 (horizontal pleiotropy) 及潜在混杂因素带来的假阳性问题。方法的流程图如下:
首先来看第一步优化,JTI方法。之前的TWAS分析方法,在预测表达量模型的训练中,未充分利用GTEx数据组织间广泛存在的生物学相似性。这里,研究者通过整合多个相似的组织 (Joint-tissue imputation, JTI) 来提升模型的预测精度。研究者同样使用弹性神经网络方法进行训练,不同的是在损失函数中引用了相似性权重值:
相似性权重值的计算是以转录水平相似度和转录起始位置附近的DNaseI-hypersensitive sites (DHS, 来自ENCODE及Roadmap)峰的相似度为依据,利用真实数据通过交叉验证的方法获得合适的超参数对相似度进行修正,提高预测精度。结果显示,JTI方法相较PrediXcan大幅提高了预测精度。下图中,iGenes表示预测出的基因,定义为预测值与真实值的相关性满足:r>1, p