Una métrica de distancia es una función que define una distancia entre dos observaciones. pdist
admite varias métricas de distancia: Distancia euclidiana, distancia euclidiana estandarizada, distancia Mahalanobis, distancia de la manzana de la ciudad, distancia de Minkowski, distancia de Chebychev, distancia del coseno, distancia de correlación, distancia Hamming, distancia Jaccard y distancia de Spearman.
Dada una matriz de datos -por-, que se trata como vectores de fila (1 por)mnX
mn
X1,
X2, ...,
Xm, las distintas distancias entre el vector Xs Y
Xt se definen de la siguiente manera:
Distancia euclidiana
La distancia euclidiana es un caso especial de la distancia Minkowski, donde p = 2.
Distancia euclidiana estandarizada
donde está la matriz -by- diagonal cuyo elemento diagonal es ( ( ))VnnjSj2, donde hay un vector de factores de escala para cada dimensión.S
Distancia Mahalanobis
donde está la matriz de covarianza.C
Distancia del bloque de la ciudad
La distancia de la manzana de la ciudad es un caso especial de la distancia Minkowski, donde p = 1.
Distancia de Minkowski
Para el caso especial de p = 1, la distancia de Minkowski da a la manzana de la ciudad distancia. Para el caso especial de p = 2, la distancia De Minkowski da la distancia euclidiana. Para el caso especial de p = ∞, la distancia de Minkowski da la distancia Chebychev.
Distancia de Chebychev
La distancia de Chebychev es un caso especial de la distancia Minkowski, donde p = ∞.
Distancia coseno
Distancia de correlación
Dónde
Y .
Distancia de Hamming
Distancia Jaccard
Distancia de Spearman
Dónde
Rsj es el rango de Xsj tomado el controlx1j, x2j, ...Xmj, calculado por .tiedrank
Rs Y
Rt son los vectores de rango coordinado de
Xs Y
XtI.e.
Rs = (Rs1,
Rs2, ... Rsn).
.
.