摘要

本文基于 CLSA、KORA、TwinsUK 以及 OncoArray 和 UK Biobank 的 GWAS 汇总数据,采用双向两样本孟德尔随机化分析循环代谢物与前列腺癌之间的因果关系。研究通过 IVW、MR-Egger、Weighted median 等多种 MR 方法筛选候选代谢物,并结合 Cochran’s Q、Egger intercept、MR-PRESSO、LOO 和 Steiger test 进行稳健性检验。结果显示,4-ethylphenylsulfate(4-EPS)与前列腺癌风险存在较稳定的负向因果关联,N6-carbamoylthreonyladenosine(N6CA)提示潜在保护作用但证据较弱;反向 MR 发现 homovanillate(HVA)和 X-12,627 与前列腺癌存在稳定因果关系,提示其可能为疾病相关标志物。该研究展示了代谢组学结合 MR 分析在筛选疾病因果因素和潜在生物标志物中的常见分析范式。

一、文章简介

这篇文章主要想回答一个很常见的问题:血液里的代谢物变化,到底是前列腺癌的原因,还是前列腺癌发生后才出现的结果?

为了解决这个问题,作者没有直接做普通相关性分析,而是用了更适合推断因果关系的 双向两样本孟德尔随机化(bidirectional two-sample MR)。简单来说,就是借助遗传变异作为工具变量,去判断某些代谢物与前列腺癌之间是不是存在真正的因果联系。

数据来源 主要来自于GWAS研究数据,其中暴露数据(代谢物)数据来自CLSA、KORA和TwinsUK研究,结局数据(前列腺癌数据来自Oncoarray和UK Biobank(用于重复验证)

主要分析方法

双向孟德尔随机化、IVW、MR-Egger;和敏感性分析(Cochran’s Q、Egger intercept、MR-PRESSO、Leave-one-out)等。

二、主要结论

1. MR筛选代谢物-前列腺癌关联:找到一批“可能有因果作用”的代谢物

作者先用前列腺癌作为结局,代谢物作为暴露做正向 MR 分析,在大规模代谢组中筛出了一批可能与前列腺癌有关的代谢物。

  • super-pathway层面,FDR校正后有 16种代谢物 与前列腺癌存在显著因果关联。
  • sub-pathway层面,FDR校正后有 39种代谢物 与前列腺癌存在显著因果关联。

这一步相当于先做“大范围扫描”,从几百个代谢物里快速找出“值得继续看的候选项”。 MR的优势在于,它不是单纯看相关性,而是尽量模拟“遗传决定的代谢差异”对疾病的影响,所以比普通相关分析更接近因果推断。

Fig. 1

2. 多方法一致性检验:大多数关联方向稳定,说明结果不是随便碰出来的

作者对筛出来的代谢物进一步用了多种 MR 方法验证,包括:

  • IVW
  • MR-Egger
  • Weighted median

结果显示:大多数代谢物在不同方法中的效应方向是一致的,说明这些结果整体比较稳定,不是某一种算法“单独跑出来的假阳性”。

这一步就是“交叉验证”。 如果一个结论在不同统计方法下都差不多,说明它更可靠;如果不同方法结果方向都不一样,那就要怀疑是不是受到了偏倚、弱工具变量或多效性影响。

3. 重复验证分析:4-EPS的结果最稳,N6CA有潜力但证据稍弱

作者又用 UK Biobank 做了 replication analysis,看看在另一个大队列里能不能复现前面的发现。

最后交叉两套数据后,真正比较稳的结果主要有两个:

  • N6-carbamoylthreonyladenosine(N6CA): OR 0.61,95% CI 0.37–1.01,p = 0.054 说明它可能与前列腺癌风险降低有关,但统计上还差一点点,属于“边缘显著”。

  • 4-ethylphenylsulfate(4-EPS): OR 0.66,95% CI 0.47–0.92,p = 0.015 说明它与前列腺癌风险之间存在更明确的负向因果关联,并且还能通过更严格的 Bonferroni 校正。

重复验证是生信分析里非常重要的一步。 一个结果如果只在一个队列里出现,可能只是偶然;如果在另一个独立队列里还能复现,可信度就高很多。 这里最值得关注的是 4-EPS,因为它不仅在主分析里出现,而且在重复数据中也站得住。

Fig. 2

4. 敏感性分析+异常值剔除:去掉“捣乱 SNP”后,结果更干净

作者进一步做了多种稳健性检查:

  • Cochran’s Q:看异质性
  • Egger intercept:看水平多效性
  • MR-PRESSO:找异常值
  • Leave-one-out:看是不是某一个 SNP 过度影响结果
  • Steiger test:确认因果方向不是反的

此外,还通过 LDlink 检查了这些 SNP 是否可能同时关联一些混杂因素,比如: 年龄、家族史、脱发、身高、运动、饮食、吸烟、前列腺炎、糖尿病等。最后作者删除了有明显多效性或高影响力的 SNP,再重新分析。

这一步可以理解为“清洗数据”。 MR 的核心假设之一是:工具变量只通过代谢物影响疾病,不应该绕路影响别的因素。 所以如果某些 SNP 还和其他混杂因素有关,就像“带偏了方向盘”,要尽量剔除。

经过这一步后,作者最终保留下来的重点结果更集中,说明结论更稳。

5. 反向MR分析:前列腺癌本身也会影响部分代谢物

作者不只做了“代谢物 → 前列腺癌”的分析,还反过来做了“前列腺癌 → 代谢物”的分析,也就是 reverse MR

最后发现前列腺癌对两个代谢物存在较稳定的反向因果关系:

  • Homovanillate(HVA)
    • OR 1.07,95% CI 1.03–1.10,p = 5.49 × 10^-5
  • X-12,627
    • OR 1.03,95% CI 1.01–1.04,p = 7.54 × 10^-5

这说明有些代谢物变化不是“致病原因”,而可能是疾病发生后的结果。 做双向 MR 的好处就在这里: 它能把“谁影响谁”这件事尽量分开,避免把结果误当原因。

Fig. 3

6. 最终得到的核心信号:4-EPS更像前列腺癌的潜在保护性因子,HVA和X-12,627更像疾病相关标志物

综合正向、反向、重复验证和敏感性分析后,作者认为:

  • 4-EPS:更像是与前列腺癌风险有关的稳定代谢物,且呈负相关
  • N6CA:有一定提示意义,但证据不够强
  • HVA 和 X-12,627:更像是前列腺癌相关的反向结果,可能用于辅助理解疾病机制或作为潜在标志物

MR 文章不是简单列出一堆相关代谢物,而是把它们分成两类:

  1. 可能影响疾病发生的“上游因子”
  2. 可能受疾病影响的“下游标志物”

这种思路非常适合推广到其他生信课题里,比如:

  • 代谢物与肿瘤
  • 蛋白与疾病
  • 微生物与代谢病
  • 暴露因素与临床结局

三、文章小结

这篇研究主要用了 双向两样本孟德尔随机化(MR),结合 IVW、MR-Egger、Weighted median、MR-PRESSO、LOO、Steiger test 等方法,对代谢物和前列腺癌的关系做了因果推断。

最终结果显示:4-EPS与前列腺癌风险存在较稳定的负向因果关联;N6CA 可能也有关联,但证据稍弱;HVA 和 X-12,627则更像是前列腺癌影响下的代谢变化。

整体上这篇文章展示了一个鉴定代谢物与疾病间因果关系的双向MR生信套路:

孟德尔随机化 → 多方法验证(IVW、MR-Egger、加权中位数)→ 多重敏感性分析(异质性、多效性、离群值剔除)→ 双重校正(FDR、Bonferroni)→ 独立数据集复现