【4.4.7】预测基于T细胞表位的诊断剂和疫苗的人群覆盖率

August 05, 2020 antibody 阅读量：次

sam点评：

这个算法看上去很玄乎，其实就是frequency的累加，有两点值得借鉴:

分epitpoe匹配个数来统计。能够匹配2个epitope的所有MHC allele 的frequency之和，匹配3个，4个…
算MHC allele frequency的时候，需要考虑allele loc的连锁关系，这个也是比较简单的统计关系。独立事件和非独立事件。

T细胞识别特定的主要组织相容性复合物（MHC）分子和特定的病原体衍生的表位之间的复合物。给定的表位仅在表达能够结合特定表位的MHC分子的个体中引起应答。 MHC分子极为多态，已知超过一千种不同的人类MHC（HLA）等位基因。 MHC多态性的数量不成比例地出现在构成肽结合区的位置，结果，MHC分子表现出很大的结合特异性。在基于肽的疫苗和诊断试剂的设计中，由于不同种族的HLA类型以明显不同的频率表达，与MHC多态性有关的人口覆盖问题进一步复杂化。因此，如果不仔细考虑，可能会导致疫苗或诊断带有种族偏见的人群覆盖率。

为了解决这个问题，开发了一种算法，可以根据HLA基因型频率计算预期对给定的抗原决定簇，诊断或疫苗有反应的个体比例。人口覆盖率估计值基于MHC结合和/或T细胞限制数据，尽管可以更通用的方式使用该工具。该算法作为Web应用程序实现，可从 http://tools.iedb.org/population/result/ 获得。

我们已经开发了一个基于Web的工具，可基于MHC结合和/或T细胞限制数据预测基于T细胞表位的诊断和疫苗的种群覆盖率。因此，可以设计基于抗原决定簇的疫苗或诊断试剂，以最大程度地扩大人群覆盖范围，同时将复杂性（即诊断试剂或疫苗中包含的不同抗原决定簇的数量）最小化，并且还可以最小化在不同种族群体中获得或预测的覆盖率差异。

一、前言

T淋巴细胞识别特定的主要组织相容性复合体（MHC）分子和特定的病原体衍生的表位之间的复合体。因此，给定的表位仅在表达能够结合特定表位的MHC分子的个体中引起应答，这在很大程度上解释了被称为“ MHC限制”（MHC restriction）的现象。在人类中，MHC分子被称为人类白细胞抗原（HLA）分子，并且存在两种不同类型：I类和II类。

HLA I类分子主要结合源自内源性加工途径的肽，并且它们的识别主要与细胞毒性T淋巴细胞（cytotoxic T lymphocyte,CTL）相关，后者对于抗病毒和抗癌免疫反应最为重要。
相比之下，HLA II类分子结合通常源自细胞外环境的肽，它们对于调节抗体和细胞毒性反应的辅助T淋巴细胞（HTL）反应非常重要。

HLA分子非常多态。迄今为止，已经定义了超过一千种不同的HLA等位基因变体[2]。特定的HLA等位基因在不同种族中以明显不同的频率表达[3，4]。因此，在基于T细胞表位的诊断剂或疫苗的设计和开发中，选择具有不同HLA结合特异性的多个表位将增加患者群体的覆盖范围。在这种情况下，一个相关的目标可能是确定针对不同人群具有最大覆盖率的HLA等位基因的最佳集合[5，6]。 Longmate及其同事的广泛分析[7]表明，通过靶向11种不同的HLA分子，可以实现多个种族的90％的人口覆盖率。但是，非洲和亚洲种族的90％覆盖率需要四个或更多其他分子。道森等还分析了问题[8]，并得出结论，要达到80％的覆盖率，在给定的种族中需要3到5个HLA分子，但是实际所需的HLA特异性在不同种族中有所不同。

在基于T细胞基于抗原决定簇的诊断或疫苗的抗原决定簇选择过程中，一个重要的考虑因素是，给定抗原决定簇组所提供的患者人群覆盖率并不简单地对应于各个组成部分的覆盖率之和。为了计算一组给定的具有多种和/或重叠的HLA结合特异性的表位所提供的覆盖范围，为此，需要考虑MHC结合和T细胞识别模式的更全面方法。以前使用了一种合适的算法[9-11]，但没有详细描述。该方法根据HLA基因型频率和MHC结合和/或T细胞限制性数据，计算预测对给定表位或一组表位有反应的个体比例。在本文中，我们将算法及其实现描述为可供公众使用的Web应用程序。我们认为，这是有助于设计和开发基于T细胞表位的诊断试剂和疫苗的有用工具，旨在在不同人群中有效。

二、算法 Implementation

对于给定的HLA基因位点，令{m1，m2，…，m N}表示一组MHC等位基因，每个等位基因均与某个人群或族裔的基因型频率G（m i）相关。为了占给定基因座的100％等位基因，总基因型频率（∑G（mi））应加起来为1。如果∑G（mi）小于1，则未鉴定的HLA等位基因的基因型频率等于剩余的（1- ∑G（mi））被添加到基因座。如果∑G（m i）大于1，则通过将频率除以∑G（mi）来按比例缩小基因座中每个mi等位基因的基因型频率。接下来，让{e1，e2，…，e K}表示具有已知MHC结合或限制数据的一组表位。对于每个表位e k，其对MHC等位基因mi的限制 ek（mi）定义如下：

对于n种MHC类型，这对应于表型频率的n×n列表，在该表中将在派生MHC频率的人群中找到每对特定的MHC。还生成了一个相似的表，其中包含每个MHC组合H（m i，m j）的表位命中数。在杂合组合的情况下，H（m i，m j）被计算为与两个等位基因H（m i）+ H（m j）的每一个相关的表位命中数的总和。这是因为m i和m j是两个不同的等位基因，因此组合中每个等位基因识别的表位命中数彼此独立。但是，对于包含两个相同等位基因的纯合体组合，表位命中数与给定等位基因的表位命中数相同：

为了计算仅限于多个k个不同基因座的MHC等位基因的表位集合的覆盖率，通过合并k个单独的频率分布，生成了作为表位/ HLA组合命中数（n）的函数的组合频率分布（P）。此合并过程基于以下假设：MHC基因座之间的链接处于平衡状态，并执行以下操作：

三、结果与讨论

人口覆盖率计算程序是作为Java Servlet公共Web应用程序实现的（请参阅“可用性和需求”部分）。 HLA等位基因（基因型）频率从dbMHC数据库获得[12]。目前，dbMHC数据库提供了分为11个不同地理区域的78个人群的等位基因频率。除从dbMHC数据库获得的等位基因频率外，总体覆盖率计算程序还接受用户定义的等位基因频率的自定义总体。可以同时计算多个人口覆盖率，并生成平均人口覆盖率。由于MHC I类和MHC II类受限制的T细胞表位从两个不同的T细胞群体（分别为CTL和HTL）引发免疫反应，因此该程序提供了三种计算选项来适应不同的覆盖模式-（1）I类分开，（2 ）将II类分开，（3）将I类和II类合并。对于每个人口覆盖范围，都会生成一个直方图，以总结个体的百分比分布与所识别的表位/ HLA组合数量的关系。还生成累积覆盖分布图，以确定90％的人群（PC90）识别的表位/ HLA组合的最小数量。最后，还计算了群体识别的表位/ HLA组合的平均数和单个表位的覆盖率。

应当注意的是，当从仅限于多个HLA基因座的等位基因的表位集合中预测种群覆盖率时，应考虑基因座之间的联系。数学上得出总体种群（表型频率）（P total）是针对重叠进行校正的单个基因座覆盖率之和：

$ 𝑆= \sum_{𝑘 =1}^{𝑛} \frac{𝑛} {！𝑘！（𝑛−𝑘）!} $ ，其中P ij为ij单体型的频率，P ijk是ijk单体型的频率，等等…如果假设基因连锁平衡，则可以将P ij计算为各个等位基因表型频率（P i×P j）的乘积，和P ijk = P i×P j×P k，等等。。。此计算隐式合并到我们的当前算法中（公式6）。但是，如果基因连锁不平衡，则给定单倍型的频率通常不等于其各自等位基因表型频率的乘积（P ij≠P i×P j，P ijk≠P i×P j×P k ，…）。结果，要考虑HLA基因座之间的连锁不平衡，必须知道单倍型频率的完整数据。因此，这时将很难考虑连锁不平衡，因为已知连锁不平衡在不同种族中是不同的，并且通常没有关于不同种族的特定不平衡的数据或不完整。随着更全面的MHC连锁不平衡数据可用，我们的方法可以修改为合并这种类型的计算。

尽管本程序假设HLA基因座之间存在连锁平衡，但是在大多数情况下，预计在MHC地区发生的连锁不平衡对计算覆盖率的影响很小。例如，在北美高加索人群中，已知HLA-A和-B位点的A1和B8抗原分别是最强的连接抗原对，其单倍型频率为7.95％[13]。 A1和B8抗原的基因型频率分别为15.18％和9.41％[13]。假设A1和B8抗原之间的联系处于平衡状态，则本程序计算的总体种群覆盖率为40.97％，而A1和B8抗原的个体种群覆盖率分别为28.06％和17.93％。在这种情况下，A1 / B8单倍型的预期平衡频率为5.03％（28.06％×17.93％），比观察到的7.95％的频率低2.92％。因此，如果考虑连锁不平衡，总体人口覆盖率将为38.04％（28.06％+ 17.93％-7.95％）。因此，即使对于高加索人口中联系最紧密的A1 / B8单倍型，在这个具体示例中，联系不平衡也仅占本计划计算的人口覆盖率的不足3％。此外，我们还根据Mori等人发表的可用抗原和单倍型频率，研究了北美高加索人群中1012 HLA-A / -B单倍型的观察到的和预期的平衡频率之间的偏差。 [14，15]。平均而言，观察到的单倍型频率与预期的平衡频率偏离约0.58％。结果，连锁不平衡预计会影响计算得出的人口覆盖率，但影响的程度可以忽略不计。

应当指出，这里描述的计算也可以在数据电子表格上执行，但是该过程费力，容易出错并且还需要广泛的免疫学专业知识。根据我们的经验，一次不使用此工具的计算就需要几个小时才能完成。据我们所知，目前尚无可作为网络资源公开访问的现有程序，该程序可提供类似于我们开发的“人口覆盖率计算”程序的灵活性和实用范围。本申请通过合并其世界范围内少数民族人口频率的编译数据来计算用户定义的人口子集的HLA覆盖范围，从而大大增强了dbMHC数据库的实用性。通过允许用户指定相关种族或不相关种族的组以及指定所考虑的HLA等位基因，该程序非常灵活。其他灵活性功能包括对MHC I类和II类划界的识别分别进行计算，因为它们分别涉及来自两个不同T细胞群（CTL和HTL）的免疫应答。该程序的输出还经过专门设计，可供MHC研究领域的专家和新手使用。因此，非常需要使该工具公开可用。此外，在未来的工作中，我们计划在该工具中纳入在给定的抗原决定簇集中搜索最小抗原决定簇亚群的能力，以提供指定的人口覆盖水平。由于必须考虑大量可能的表位子集（S），因此这并不是一件容易的事， $ 𝑆= \sum_{𝑘 =1}^{𝑛}\frac{𝑛！}{𝑘!（𝑛−𝑘）！} $ 其中n是表位的总数，k是子集中表位的数目。例如，对于一组20个表位，总共需要评估1,048,575个表位子集的组合。因此，必须设计一种战略搜索方法来计算完成此任务。总而言之，借助该“人口覆盖率计算”程序，可以设计基于抗原决定簇的疫苗或诊断试剂，以最大程度地扩大人群覆盖范围，同时最大程度地降低复杂性（即，诊断试剂或疫苗中包含的不同抗原决定簇的数量），并最大程度地减少不同种族群体获得或预测的覆盖率差异。

四、总结

在这里，我们已经实现了一种方法，该方法使用MHC结合或T细胞限制数据和HLA基因频率来计算基于T细胞抗原决定簇的诊断或疫苗的预计人群覆盖率。人口覆盖率计算程序旨在使用户友好和灵活。除了当前提供的已编译HLA基因频率，用户还可以提供自己的列表HLA基因频率进行计算。因此，研究人员可以使用此工具对特定患者群体进行覆盖率分析。我们计划在获得更多数据时不断更新已编译的HLA基因频率，从而为研究人员提供有用的工具，以帮助设计和开发有效的基于T细胞表位的诊断试剂和疫苗。

参考资料

Bui H. H, Sidney J, Dinh K, Southwood S, Newman M. J, Sette A. 2006. Predicting population coverage of T-cell epitope-based diagnostics and vaccines. BMC Bioinformatics 17:153. PMID:16545123。网址：https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-7-153

药企，独角兽，苏州。团队长期招人，感兴趣的都可以发邮件聊聊：tiehan@sina.cn

个人公众号，比较懒，很少更新，可以在上面提问题，如果回复不及时，可发邮件给我： tiehan@sina.cn