首页 > 试题广场 >

以下哪个距离修正了欧式距离中各个维度尺度不一致且相关的问题(

[单选题]
以下哪个距离修正了欧式距离中各个维度尺度不一致且相关的问题()
  • 切比雪夫距离
  • 马氏距离
  • 汉明距离
  • 曼哈顿距离

1. 欧式距离的问题

欧式距离是最常用的距离度量方法之一,公式如下:

d(x,y)=i=1n(xiyi)2

然而,欧式距离存在以下问题:

  • 尺度不一致:如果不同维度的特征具有不同的量纲或取值范围(例如一个维度是身高,另一个维度是体重),欧式距离会被量纲较大的维度主导。
  • 相关性忽略:欧式距离假设各个维度之间是独立的,但实际上许多数据集中维度之间可能存在相关性。这种相关性会导致欧式距离无法准确反映样本之间的实际距离。

因此,在处理多维数据时,需要一种更合适的方法来修正这些问题。

2. 各选项分析

A. 切比雪夫距离

切比雪夫距离的定义是:

d(x,y)=imaxxiyi
  • 它衡量的是两个点在各个维度上的最大差值。
  • 切比雪夫距离没有考虑尺度和相关性的问题,仍然会受到量纲的影响。
  • 不适合修正欧式距离中的问题
B. 马氏距离

马氏距离的定义是:

d(x,y)=(xy)TΣ1(xy)

其中:

  • x y 是两个样本点。
  • Σ 是协方差矩阵,用于描述数据集中各维度之间的相关性和尺度差异。
  • Σ1 是协方差矩阵的逆矩阵。

特点

  • 马氏距离通过协方差矩阵对数据进行标准化,消除了不同维度之间的量纲差异。
  • 考虑了维度之间的相关性,能够更好地反映样本之间的实际距离。
  • 适合修正欧式距离中的问题
C. 汉明距离

汉明距离主要用于离散变量(如字符串、二进制数等),其定义是:

d(x,y)=不同位置的数量
  • 适用于分类变量或离散数据,无法直接应用于连续型数据。
  • 与欧式距离无关,也无法解决尺度和相关性问题
D. 曼哈顿距离

曼哈顿距离的定义是:

d(x,y)=i=1nxiyi
  • 它是各个维度上绝对差值的总和。
  • 曼哈顿距离同样没有考虑尺度和相关性的问题,仍然会受到量纲的影响。
  • 不适合修正欧式距离中的问题

3. 为什么选择马氏距离?

  • 修正尺度不一致:马氏距离通过对协方差矩阵进行标准化,消除了不同维度之间的量纲差异。
  • 考虑维度相关性:马氏距离利用协方差矩阵捕捉维度之间的相关性,能够更准确地反映样本之间的实际距离。
  • 因此,马氏距离是修正欧式距离中尺度不一致和相关性问题的最佳选择。
发表于 2025-10-19 20:39:14 回复(0)
答案是 B 马氏距离,它专门用于修正欧式距离中维度尺度不一致和维度相关的问题。
要理解这一点,需要先明确各选项距离的核心特点,以及欧式距离的局限性:欧式距离直接计算各维度差值的平方和开根号,会因维度单位(如身高用厘米、体重用千克)和维度间关联(如身高与体重正相关)导致结果偏差。

各选项距离特点分析

  1. A 切比雪夫距离
    计算各维度差值的最大值,公式为 \(d = \max(|x_1-y_1|, |x_2-y_2|, ..., |x_n-y_n|)\)
    它仅关注差异最大的维度,既不处理尺度不一致,也不解决维度相关问题,常见于 “最不利情况” 分析(如棋盘上国王的最短步数)。
  2. B 马氏距离
    核心是引入协方差矩阵,公式为 \(d = \sqrt{(X-Y)^T \Sigma^{-1} (X-Y)}\)(其中 \(\Sigma\) 是维度的协方差矩阵)。
    • 协方差矩阵的逆能消除维度相关:若两个维度正相关(如身高和体重),会通过矩阵运算降低其重复影响。
    • 同时能统一尺度:无需手动标准化(如将厘米、千克转为同一单位),矩阵会自动修正不同维度的尺度差异,完全解决欧式距离的两个核心问题。
  3. C 汉明距离
    仅用于离散分类数据(如字符串、二进制),计算两个样本中 “不同维度的数量”(如 “0110” 与 “0101” 的汉明距离为 2)。
    与连续数据的尺度、相关性无关,不适用该问题场景。
  4. D 曼哈顿距离
    计算各维度差值的绝对值之和,公式为 \(d = |x_1-y_1| + |x_2-y_2| + ... + |x_n-y_n|\)
    它本质是欧式距离的 “L1 范数” 版本,同样未处理维度尺度不一致和相关性,仅比欧式距离更关注 “ Manhattan 街区式” 的路径累加。
发表于 2025-10-16 11:03:18 回复(0)