R数据分析孟德尔随机化分析文献解析和实例 - 论文参考文献

TUhjnbcbe - 2023/3/25 19:31:00

最近抽空研读了一篇探讨高血压和肾功能关系的文献，记录下来分享给大家，主要也是想看看孟德尔随机化的统计分析结果在论文中是如何呈现的，之后我会给大家写写孟德尔随机化的统计分析在R语言中的做法，希望可以帮助到大家。

文章的题目是AbidictionalMendelianrandomizationstudysupportscausaleffectsofkidneyfunctiononbloodpssu，这篇文章用到的统计技巧叫做Two-sampleMR----两样本孟德尔随机分析。我还查阅了别的孟德尔随机化的文献，这个Two-sampleMR的分析其实是非常常用的。

Two-sampleMR分析的一般步骤

第一步是找工具变量，我们要的是基因作为工具变量这些个基因都是从别人的研究中挑出来的，所有的基因研究有个专门的库叫做genomewideassociationstudies(GWAS)。我们需要做的就是从这个库中挑出来我们自己需要的和我们暴露相关的基因变量SNPs。这是第一步。

第二步就是估计我们的工具变量对结局的作用，工具变量对结局的作用也是从所有的研究中估计出来的整体效应，这样可以拒绝单个研究的偏倚。

第三步就是合并多个SNP的效应量，这个效应量是我们得到暴露和结局因果效应的前提。

第四步就是用合并后的数据进行孟德尔随机化分析和相应的敏感性分析。

做分析的整个流程就在下面的图中啦：

总体来看就是在孟德尔随机化研究中我们的工具变量可以不需要你收集，工具变量的效应也不需要你计算，这些都只需要你在GWAS挖掘合并就行。就是说做孟德尔随机化研究是不需要你有原始数据的。

我们把上面的步骤具体在刚刚提到的文献中走一遍：

这篇文献是要研究高血压和肾功能的因果方向的，就是到底是高血压导致肾功能下降，还是肾功能下降导致的高血压，具体地就是研究eGFRcr和BP的因果方向。

首先作者从别人的基因研究中找自己研究变量的工具变量，别人的研究的情况如下表：注意下表是包含一个联盟的很多个研究的(肾功能的工具变量是从CKDGenConsortium找来的，血压的工具变量是UKB-ICBP中找来的)，是需要进行meta整合的：

通过meta分析作者就筛选出了两个变量可能的工具变量，因为每个变量的工具变量其实是比较多的，为了保证同一个变量工具变量间的独立性，作者有做一个叫LDclumping的操作：

Toensuindependenceamonggeneticinstruments,weappliedLDclumping60withaclumpingwindowof10MBandanr2cutoffof0.(defaultoftheld_clumpfunction)

作者有把筛出来的变量的暴露和结局的工具变量展示在文献中（但是放在补充材料中的，我并没有能找到，欸）

然后就到第二步和第三步，估计工具变量对暴露和结局的作用，这个时候要考虑工具变量一定不能直接影响结局（叫做pleiotropy），所以作者会用好几个算法来估计SNP的作用，并将多个SNP的效应合并，用到的是harmonise_data这个函数。

工具变量其实有很多的，所以就有上面提到的pleiotropic问题，作者是用不同的方法来估计参数（inversevarianceweightedmethod,mendelianrandomisation-Egger(MR-Egger)method,weightedmedianmethod,andweightedmodebasedestimation）来均衡pleiotropic问题的影响，最后得到一个总的合并后的效应，这个效应被认为是比较稳健的：

Weappliedfour