【摘要】:通过聚类分析,我们可以把事物分成若干个类别,使得类别的内部差异尽可能小,类别间的差异尽可能大。那么最重要的问题是如何描述这种差异?伟大的统计学家发明了各式各样的描述距离的方法,在统计学中常用的距离表达式欧氏距离。两个样本之间的欧氏距离是样本各个变量值之差的平方和的平方根,计算公式为:在聚类分析中,人们往往会使用欧氏距离的平方来度量距离。
通过聚类分析,我们可以把事物分成若干个类别,使得类别的内部差异尽可能小,类别间的差异尽可能大。那么最重要的问题是如何描述这种差异?人们通常的做法是通过计算距离或者相似的方法来描述。伟大的统计学家发明了各式各样的描述距离的方法,在统计学中常用的距离表达式欧氏距离(Euclidean Distance)。两个样本之间的欧氏距离是样本各个变量值之差的平方和的平方根,计算公式为:
在聚类分析中,人们往往会使用欧氏距离的平方来度量距离。两个样本之间的欧氏距离的平方是各个样本之差的平方和,计算公式为:
两个样本之间的Chebychev距离是各样本所有变量值之差绝对值中的最大值,计算公式为:
两个样本之间的Block距离是各样本所有变量值之差绝对值的总和,计算公式为:
两个样本之间的Minkowski距离是各样本所有变量值之差绝对值的p次方的总和,再求p次方根。计算公式为:
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。