研究背景

非酒精性脂肪肝病(NAFLD)及其相关肝细胞癌(HCC)发病率上升,缺乏有效生物标志物。 文章通过生物信息学与机器学习筛选NAFLD特征基因,构建诊断模型来预测或辅助诊断NAFLD。

数据来源

数据集/队列 数据库 数据类型 详细信息
GSE89632 GEO RNA-seq数据 24个对照样本,19个NASH样本,21个单纯性脂肪变性(SS)样本
GSE164760 GEO RNA-seq数据 包含6个对照样本和74个NASH样本
GSE3703 GEO RNA-seq数据 7个对照样本和8个NASH样本
GSE164441 GEO RNA-seq数据 10个NAFLD相关的HCC肿瘤组织和10个正常组织
TCGA-LIHC数据集 TCGA 癌症基因组图谱 正常(n = 50)样本和肿瘤(n = 371)样本的RNA序列数据

研究思路

研究首先从GEO数据库获取NAFLD患者与对照的基因表达数据,利用差异表达分析和加权基因共表达网络分析(WGCNA)筛选出219个疾病相关基因,发现其显著富集于炎症相关通路。随后,通过LASSO回归和支持向量机-递归特征消除(SVM-RFE)两种机器学习算法进行特征选择,最终鉴定出四个核心特征基因:AXUD1、FOSB、GADD45B和SOCS2。

基于这四个基因,研究构建了NAFLD诊断模型,该模型在训练集和外部验证集中均展现出极高的诊断效能(AUC > 0.99)。进一步分析发现,这些基因的表达水平与肝组织学损伤、血清生化指标呈显著负相关,并在高脂饮食小鼠模型中得到验证。

研究还拓展至NAFLD相关肝细胞癌(HCC),发现特征基因在癌组织中表达普遍下调,其中SOCS2的低表达与患者不良预后显著相关。该研究为NAFLD的无创诊断、疾病监测及预后评估提供了新的生物标志物和潜在干预靶点。

WindBlow-MP3Ktyan-000074

主要结果

1. 差异表达基因筛选和加权基因共表达网络分析

使用limma包比较NASH组与对照组,筛选条件为 P<0.05P<0.05 且 ∣log⁡FC∣>1∣logFC∣>1。共筛选出410个差异表达基因(DEGs),多数在NASH中下调。使用WGCNA R包构建基因共表达网络,划分共表达模块。识别出11个模块,其中“Mfgreenyellow”模块与NAFLD显著相关(r=0.85, P<1e-13),包含1344个基因。

WindBlow-a4RLy7HL-000075

2. 特征基因筛选

取410个DEGs与“Mfgreenyellow”模块交集,得到219个疾病相关基因。用Metascape进行GO与KEGG富集分析,发现基因富集于炎症反应、细胞死亡调控等通路。同时,采用LASSO回归筛选出10个基因,SVM-RFE算法筛选出8个基因,取交集得到4个特征基因:AXUD1、FOSB、GADD45B、SOCS2

WindBlow-u94Qt79d-000077

3. 特征基因表达与临床关联分析

在训练集和验证集中分析基因表达;使用Spearman相关性分析基因表达与组织学评分、临床指标的关系。发现:

  • 4个特征基因在NAFLD样本中表达显著下调。
  • 表达水平与脂肪变性、炎症评分、AST、ALT、血脂等呈负相关。
  • 在肥胖/糖尿病小鼠和患者中表达降低。

WindBlow-hFrJDH3G-000078

4. 构建NAFLD诊断模型

基于4个特征基因构建列线图模型,使用WindBlow-3XhFSagd-000079校准曲线、决策曲线分析(DCA)和ROC曲线评估性能。

5. 特征基因互作与通路分析

对4个特征基因进行相关分析。利用GeneMANIA数据库建立特征基因的蛋白互作网络,鉴定出20个与特征基因互作的基因。对这24个基因进行KEGG和GO富集分析。

WindBlow-aDvBARLU-000080

6. 特征基因表达动物模型验证

用NAFLD小鼠模型验证特征基因的表达 (图7A),用qPCR检测特征基因的肝内mRNA表达,发现NAFLD中特征基因表达下调。使用数据库**the Attie Lab Diabetes database **(http://diabetes.wisc.edu)比较了瘦小鼠和肥胖症小鼠在4周或10周时特征基因的表达。

WindBlow-NZiMnxXu-000081

7. 特征基因在NAFLD-HCC中的表达与预后

使用NAFLD相关的HCC数据集GSE164441,发现在NAFLD相关HCC样本中特征基因的表达显著降低(图A)。在TCGA-LIHC数据集中也得到了类似的结果(图B)。本研究还进行了生存分析(图C-E),以及SOCS2的表达与病理分期、肿瘤状态和分级显著相关(图F-H)。最后,利用人蛋白图谱(HAP)数据库,比较了正常肝脏和HCC中特征基因的差异蛋白表达情况(图I和J)。这些结果表明,这些特征基因在NAFLD相关的HCC中起着关键作用。

WindBlow-67QaxVf0-000082

文章小结

这篇文章虽然是非肿瘤机器学习诊断模型的思路,但加入了动物实验、糖尿病数据库和HPA数据库佐证分析结果来提升文章分数,这一套组合拳下来,效果是杠杠的!感兴趣的朋友,码住这个思路行动起来吧!