【7.5.1】代谢物-微生物相关性检测方法的评价

October 23, 2021 microbe 阅读量：次

在代谢物和微生物相关性分析中比较了六种方法的性能。
联合使用一种以上的方法可能会取得更好的效果。
Spearman 和 MIC 可能是一个很好的组合。
CClasso 是保守的，独立于多样性，但对数据结构很敏感。

针对微生物组专门设计了不同的相关性检测方法考虑组成数据结构和不同测序深度的数据分析。随着组学研究的快速发展，人们对发现微生物与宿主代谢物之间的生物学关联越来越感兴趣。这就提出了寻找合适的统计方法的需要，以促进不同组学研究之间的相关性分析。在这里，我们综合评估了六种不同的相关方法，即 Pearson 相关、Spearman 相关、Sparse Correlations for Compositional data (SparCC)、Correlation inference for Compositional data through Lasso (CCLasso)、Mutual Information Coefficient (MIC) 和余弦相似度（Cosine similarity method）方法，用于微生物和代谢物之间的相关性检测。

三个模拟数据集和两个真实数据集（来自公共数据库和我们的实验室）用于检查每种方法在不同稀疏度下的特异性、灵敏度、相似性、准确性和稳定性方面的性能。我们的结果表明，尽管每种方法在不同场景下都有其优缺点，但 Spearman 相关性和 MIC 的整体性能优于其他方法。还为微生物和代谢物之间的相关性分析提出了战略指导。

一、前言

多年来，关联分析在探索和识别生物系统之间或内部的有趣关系方面发挥着越来越重要的作用 [ 1 ]。在过去的十年中，大量研究表明哺乳动物肠道微生物组可以通过多种方式与宿主代谢相互作用，这种相互作用在广泛的生物系统中发挥着重要作用 [ [2] , [3] , [4] , [5] , [6] ]。随着宏基因组学的快速发展，代谢组学和交叉组学，微生物与代谢物之间的相关性越来越受到关注。然而，也出现了某些问题，例如，

代谢组和微生物组数据由于其数据采集方法而遵循不同的分布。代谢组数据基于“光谱”信息；因此，代谢物信号是连续的，并与其在样品中的浓度成正比。微生物组（例如，16S rRNA）数据基于“计数”措施；因此，OTU（操作分类单位）丰度是离散的、稀疏的，并且与 rRNA 拷贝数有关 [7]]。
微生物组丰度数据通常按相对丰度进行缩放，以控制来自实验的不需要的变化。这种所谓的“组合”特征会损害一些常用的统计方法并产生有偏差的结果 [ [8]、[9]、[10] ]。因此，已经开发了几种相关检测方法，专门用于组成微生物组数据中的共丰度分析。然而，这些方法检测不同类型数据集（例如代谢物、临床指标）之间的相关性的能力仍不清楚，有待评估。

本研究对六种方法进行了代谢物与微生物相关性分析的综合评价。包括两种传统方法，Pearson 相关和 Spearman 等级相关。成分数据的稀疏相关性 (SparCC) [ 11 ] 和通过 Lasso 的成分数据的相关性推断 (CCLasso) [ 12 ]，最近设计用于估计成分 16S rRNA 数据内的相关性，也参与其中。此外，最大信息系数 (MIC) 是一种基于最大信息的非参数方法，考虑到其在大规模组学数据中捕获广泛关系的能力，包括函数关系和非函数关系，线性和非线性关系，也被添加到我们的研究中 [ 1] , 13]。最后，还包括测量向量之间夹角余弦的余弦相似度方法。这种方法判断方向，而不是大小，因此与变量的长度或单位无关。使用模拟和真实世界的数据集，我们在特异性、敏感性、相似性、准确性和稳定性方面进行了一系列性能评估，并具有不同的零值比例。我们本研究的目的是提供一种策略，用于选择合适的方法来分析不同数据集的代谢物和微生物之间的相关性。

二、方法

2.1 相关分析方法

2.1.1 Pearson 积矩相关分析 Pearson product-moment correlation analysis

Pearson 相关分析是 Karl Pearson 定义的经典方法 [ 14 ]。数学公式表示为等式(1)。的[R是代谢物（的相关系数X）和微生物（Ý）。所述Ñ是两个变量的样本大小（Ñ  =在模拟和公共数据集100和Ñ 在内部数据组= 42）。在我的索引个体样品，其代谢物和微生物的值是X我和ÿ我，分别。这和分别是所有样本的平均值。

公式1

2.1.2 Spearman 等级顺序相关分析 Spearman rank-order correlation analysis

Spearman 秩次相关 [ 15 , 16 ] 是 Pearson 积矩方法 [ 17 ]的非参数扩展，其数学公式类似于 Pearson 积矩相关。在计算过程中，具体的数字会被他们的排名所代替。

2.1.3 SparCC

SparCC 是一种旨在处理成分数据的方法，无需任何参数假设 [ 11 , 18 ]。它基于 Aitchison 的对数比分析 [ 19 ] 并估计变换分量之间的 Pearson 相关性。在本研究中，SparCC 使用 CClasso 包 [ 11 ] 中包含的代码运行。

。。。

其他方法后续整理。。

参考资料

2019，valuation of metabolite-microbe correlation detection methods 。 https://www.sciencedirect.com/science/article/pii/S0003269718306791?via%3Dihub

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn