- 题目:Identification of potential feature genes in non-alcoholic fatty liver disease using bioinformatics analysis and machine learning strategies
- 影响因子:IF=6.7
- 发表时间:2023.03
研究背景
非酒精性脂肪肝病(NAFLD)及其相关肝细胞癌(HCC)发病率上升,缺乏有效生物标志物。 文章通过生物信息学与机器学习筛选NAFLD特征基因,构建诊断模型来预测或辅助诊断NAFLD。
数据来源
| 数据集/队列 | 数据库 | 数据类型 | 详细信息 |
|---|---|---|---|
| GSE89632 | GEO | RNA-seq数据 | 24个对照样本,19个NASH样本,21个单纯性脂肪变性(SS)样本 |
| GSE164760 | GEO | RNA-seq数据 | 包含6个对照样本和74个NASH样本 |
| GSE3703 | GEO | RNA-seq数据 | 7个对照样本和8个NASH样本 |
| GSE164441 | GEO | RNA-seq数据 | 10个NAFLD相关的HCC肿瘤组织和10个正常组织 |
| TCGA-LIHC数据集 | TCGA | 癌症基因组图谱 | 正常(n = 50)样本和肿瘤(n = 371)样本的RNA序列数据 |
研究思路
研究首先从GEO数据库获取NAFLD患者与对照的基因表达数据,利用差异表达分析和加权基因共表达网络分析(WGCNA)筛选出219个疾病相关基因,发现其显著富集于炎症相关通路。随后,通过LASSO回归和支持向量机-递归特征消除(SVM-RFE)两种机器学习算法进行特征选择,最终鉴定出四个核心特征基因:AXUD1、FOSB、GADD45B和SOCS2。
基于这四个基因,研究构建了NAFLD诊断模型,该模型在训练集和外部验证集中均展现出极高的诊断效能(AUC > 0.99)。进一步分析发现,这些基因的表达水平与肝组织学损伤、血清生化指标呈显著负相关,并在高脂饮食小鼠模型中得到验证。
研究还拓展至NAFLD相关肝细胞癌(HCC),发现特征基因在癌组织中表达普遍下调,其中SOCS2的低表达与患者不良预后显著相关。该研究为NAFLD的无创诊断、疾病监测及预后评估提供了新的生物标志物和潜在干预靶点。

主要结果
1. 差异表达基因筛选和加权基因共表达网络分析
使用limma包比较NASH组与对照组,筛选条件为 P<0.05P<0.05 且 ∣logFC∣>1∣logFC∣>1。共筛选出410个差异表达基因(DEGs),多数在NASH中下调。使用WGCNA R包构建基因共表达网络,划分共表达模块。识别出11个模块,其中“Mfgreenyellow”模块与NAFLD显著相关(r=0.85, P<1e-13),包含1344个基因。

2. 特征基因筛选
取410个DEGs与“Mfgreenyellow”模块交集,得到219个疾病相关基因。用Metascape进行GO与KEGG富集分析,发现基因富集于炎症反应、细胞死亡调控等通路。同时,采用LASSO回归筛选出10个基因,SVM-RFE算法筛选出8个基因,取交集得到4个特征基因:AXUD1、FOSB、GADD45B、SOCS2。

3. 特征基因表达与临床关联分析
在训练集和验证集中分析基因表达;使用Spearman相关性分析基因表达与组织学评分、临床指标的关系。发现:
- 4个特征基因在NAFLD样本中表达显著下调。
- 表达水平与脂肪变性、炎症评分、AST、ALT、血脂等呈负相关。
- 在肥胖/糖尿病小鼠和患者中表达降低。

4. 构建NAFLD诊断模型
基于4个特征基因构建列线图模型,使用
校准曲线、决策曲线分析(DCA)和ROC曲线评估性能。
5. 特征基因互作与通路分析
对4个特征基因进行相关分析。利用GeneMANIA数据库建立特征基因的蛋白互作网络,鉴定出20个与特征基因互作的基因。对这24个基因进行KEGG和GO富集分析。

6. 特征基因表达动物模型验证
用NAFLD小鼠模型验证特征基因的表达 (图7A),用qPCR检测特征基因的肝内mRNA表达,发现NAFLD中特征基因表达下调。使用数据库**the Attie Lab Diabetes database **(http://diabetes.wisc.edu)比较了瘦小鼠和肥胖症小鼠在4周或10周时特征基因的表达。

7. 特征基因在NAFLD-HCC中的表达与预后
使用NAFLD相关的HCC数据集GSE164441,发现在NAFLD相关HCC样本中特征基因的表达显著降低(图A)。在TCGA-LIHC数据集中也得到了类似的结果(图B)。本研究还进行了生存分析(图C-E),以及SOCS2的表达与病理分期、肿瘤状态和分级显著相关(图F-H)。最后,利用人蛋白图谱(HAP)数据库,比较了正常肝脏和HCC中特征基因的差异蛋白表达情况(图I和J)。这些结果表明,这些特征基因在NAFLD相关的HCC中起着关键作用。

文章小结
这篇文章虽然是非肿瘤机器学习诊断模型的思路,但加入了动物实验、糖尿病数据库和HPA数据库佐证分析结果来提升文章分数,这一套组合拳下来,效果是杠杠的!感兴趣的朋友,码住这个思路行动起来吧!