- 题目:Integrated Analysis of Single-Cell RNA-Seq and Bulk RNA-Seq Combined with Multiple Machine Learning Identified a Novel Immune Signature in Diabetic Nephropathy
- 影响因子:IF=6.408
- 发表时间:2023.06
数据来源

研究思路
基因表达数据集是从GEO中获取。从免疫学数据库和分析门户网站(ImmPort)共获得1793个免疫相关基因。对GSE142025进行加权基因共表达网络分析(WGCNA),发现红色和绿松石色共表达模块为关键模块。接着使用了四种机器学习算法,即随机森林(RF)、支持向量机(SVM)、自适应增强(AdaBoost)和k近邻(KNN),来评估hub基因的诊断价值。使用CIBERSORT算法分析免疫浸润模式,并研究免疫细胞类型丰度与hub基因表达之间的相关性。

主要结果
1. 加权共表达网络的构造与关键模块的识别
将GSE142025在R包中进行WGCNA分析(图A)。此外,采用层次聚类将相似表达分到同一个模块,图B中为14个合并的模块,接着衡量模块与临床特征之间的相关性得到热图。结果表明绿松石和红色模块中的基因可能在DN向晚期的发展中起着至关重要的作用。

2. GO和KEGG通路富集分析
对绿松石和红色模块中已鉴定的基因进行了GO和KEGG富集途径分析。GO分析表明,生物过程主要富集在免疫系统过程等方面(图A)。细胞成分主要富集在质膜部分等成分中(图B)。在分子功能类别中,绿松石和红色模块中的基因主要与分子转导活性等有关(图C)。KEGG分析的结果表明这些基因与趋化因子信号通路等显著相关(图D)。总之,上述结果表明,免疫相关功能与绿松石和红色模块中的基因密切相关。

3. Hub基因的鉴定与验证
提取绿松石和红色模块中的77个免疫相关基因,并将它们与DEG取交集(图A)。最后,鉴定出10个枢纽基因。作者在GSE30529和Nephrseq数据库中进行了验证,以分析hub基因在不同糖尿病人群样本中的表达模式。与GSE30528中的结果一致(图B和C)。接着进行了RT-qPCR,分析正常、DN和chaga治疗组大鼠肾脏中的mRNA表达水平。结果显示,DN组9个hub基因的表达水平显著上调,chaga处理组的基因表达水平几乎正常(图D)。结果表明了生物信息学分析的可靠性,并表明这些基因可能是阻止DN进展的潜在靶点。

4. 创建机器学习模型
使用RF、SVM、AdaBoost和KNN来评估基于hub基因的免疫信号在DN诊断中的价值。GSE30528用作训练模型分析,GSE30529和GSE47183用作测试模型分析。如图4A所示,模型不确定性与所选树的数量之间的相关性呈现出一致的不准确度。基尼系数技术分析得出前4位的基因(图4B)。如图4C和D所示,作者通过5倍的交叉验证构建了四种机器学习模型。基于交叉验证测试集数据绘制ROC曲线,以直观地显示四个机器学习模型的诊断预测值。

5. 基于批量序列分析和单细胞测序分析的免疫浸润模式
在GSE142025和GSE30529中进一步进行了CIBERSORT算法,以研究参与DN发生和发展的免疫细胞类型。每个样本中免疫细胞亚型的丰度如图A和B所示。在GSE142025(图C)中,晚期DNT_cells_CD8等的比例增加。此外,晚期DN样本中的T细胞调节等较低。在GSE30529(图D)中,巨噬细胞_M1、巨噬细胞_M2等的比例增加。

除了批量测序分析外,还使用单细胞测序数据集GSE131882分析了DN的免疫微环境。作者鉴定了18个细胞簇(图A和B)。每个簇中细胞的比例如图6C所示。在DN样本中检测到大量免疫细胞簇。R包CellChat用于进一步研究活化的足细胞和免疫细胞之间的通讯。DN样本中细胞通信强度增强(图D)。总之,DN样本中足细胞和免疫细胞之间的通讯途径显著增加。

6. Hub基因靶向药物的预测
DGIdb共鉴定了102种可能靶向中枢基因的分子药物。其中,52个靶向LCK,7个靶向CD3D,19个靶向ITGB2,12个靶向TLR7,12个目标PTPRC(下图)。

文章小结
整体思路就是单细胞测序与批量测序结合的一篇非肿瘤分析,其中还掺杂着机器验证。分析思路清晰,换个疾病癌种再将机器学习、单细胞测序与批量测序排列组合一下,新的点子就出来啦!