【2.1.3】--标准化欧氏距离(Standardized Euclidean Distance)

标准化欧氏距离是针对欧氏距离的缺点而作的一种改进。标准欧氏距离的思路:既然数据各维分量的分布不一样,那先将各个分量都“标准化”到均值、方差相等。假设样本集X的均值(mean)为m,标准差(standard deviation)为s,X的“标准化变量”表示为:

$$ X' = \frac{X-m}{s}$$

标准化欧氏距离公式:

$$ d = \sqrt{ \sum \limits_{k=1}^{n} ( \frac{x_{1k} - x_{2k}}{s_{k}} )^{2} }$$

如果将方差的倒数看成一个权重,也可称之为加权欧氏距离(Weighted Euclidean distance)。

应用层面 在机器学习中,聚类用的标准化欧氏距离比较多,在面对求解长方形区域聚类的时候,普通的距离无法满足相似性度量,这是就得采用标准化欧氏距离来度量。

这里推荐一本书。

Chikodili N B , MD Abdulmalik, Abisoye O A , et al. Outlier Detection in Multivariate Time Series Data Using a Fusion of K-Medoid, Standardized Euclidean Distance and Z-Score[M]. 2021.

参考资料

药企,独角兽,苏州。团队长期招人,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn