【5】聚类的评估--Cophenetic Coefficient

我们刚刚执行的聚类有多好? 有一个称为Cross Correlation Coefficient or Cophenetic Correlation Coefficient (CP) ,它显示了我们聚类的拟合优度,类似于回归的相关系数 。

为了计算层次聚类的 Cophenetic Correlation Coefficient,我们需要两个信息:

  1. Distance matrix
  2. Cophenetic Matrix

我们将距离作为分层聚类计算的输入。 因为距离矩阵是对称的,为了我们的目的,我们只需要下三角值

为了获得 Cophenetic 矩阵,我们需要用我们在上一节中获得的最小合并距离来填充下三角距离矩阵。 记住在我们上一节的总结中,

  1. We merge cluster D and F into cluster (D, F) at distance 0.50
  2. We merge cluster A and cluster B into (A, B) at distance 0.71
  3. We merge cluster E and (D, F) into ((D, F), E) at distance 1.00
  4. We merge cluster ((D, F), E) and C into (((D, F), E), C) at distance 1.41
  5. We merge cluster (((D, F), E), C) and (A, B) into ((((D, F), E), C), (A, B)) at distance 2.50

使用这些信息,我们可以将 Cophenetic 矩阵填入

现在我们得到了两个必需的信息,我们可以将它们放在一个矩阵中。

Cophenetic Correlation Coefficient 简单来说就是距离矩阵与Cophenetic 矩阵的相关系数=Correl (Dist, CP) = 86.399%.

由于 Cophenetic Correlation Coefficient 的值非常接近 100%,我们可以说聚类非常合适。

cophenetic-coefficient计算公式

PS

最小合并距离怎么确定呢??

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn