【1.2】--个体之间距离的度量方法

进行聚类分析首先要建立在各个样品(或变量)之间“距离”的精确度量的基础 根据变量类型的不同,“距离”的度量方式也不相同,下面分别叙述:

1. 针对连续变量的距离测度

欧氏距离(Euclidean distance): 两个体p个变量值之差平方和的平方根

2.针对计数变量的距离测度

所谓计数变量,是指个体在某个分类变量上的频数。针对计数变量的距离测度方法主要有卡方距离和Phi方距离。

3.针对二值变量的距离测度

如果个体的k个变量都是二值变量,则个体之间的距离测度将基于一个如下表所示的2*2的列联表。该表是根据原始数据转换而来的两个体取值的交叉列联表。表中, a+b+c+d等于变量的总个数,a为两个体取值都为1的变量个数,b为个体x取值为0, 而个体y取值为1的变量个数,c为个体 x取值为1而个体y取值为0的变量个数,d为两 个体取值都是0的变量个数。显然,a+d的比重描述了两个体之间的相似程度,而b+c的 比重反映了两个体之间的差异程度。

参考资料

  • 第 10 章 聚类分析(超级赞的一个资料)http://pan.baidu.com/s/1eQzknXC
药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn