Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Selección de características de análisis de componentes de vecindad (NCA)

El análisis de componentes de vecindad (NCA) es un método no paramétrico e incrustado para seleccionar entidades con el objetivo de maximizar la precisión de predicción de los algoritmos de regresión y clasificación. Las funciones y realizar la selección de características de NCA con la regularización para aprender pesos de características para la minimización de una función objetiva que mide la clasificación promedio de Leave-One-out o la pérdida de regresión sobre los datos de entrenamiento.Statistics and Machine Learning Toolbox™fscncafsrnca

Selección de características de NCA para clasificación

Considere un problema de clasificación de varias clases con un conjunto de entrenamiento que contenga observaciones:n

S={(xi,yi),i=1,2,,n},

Dónde xip son los vectores de función, yi{1,2,,c} son las etiquetas de clase y es el número de clases.c El objetivo es aprender un clasificador f:p{1,2,,c} que acepta un vector de entidad y hace una predicción f(x) para la etiqueta true y De x.

Considere un clasificador aleatorio que:

  • Elige aleatoriamente un punto, Ref(x)De S como el «punto de referencia» para x

  • Etiquetas x utilizando la etiqueta del punto de referencia Ref(x).

Este esquema es similar al de un clasificador 1-NN donde el punto de referencia se elige para ser el vecino más cercano del nuevo punto x. En el NCA, el punto de referencia se elige aleatoriamente y todos los puntos en S tienen cierta probabilidad de ser seleccionados como el punto de referencia. La probabilidad P(Ref(x)= xj|S) ese punto xj se recoge de S como punto de referencia para x es mayor si xj está más cerca de x medida por la función de distancia dwDónde

dw(xi,xj)=r=1pwr2|xirxjr|,

Y wr son los pesos de las entidades. Supongamos que

P(Ref(x)= xj|S)k(dw(x,xj)),

Dónde k es un kernel o una función de similitud que asume valores grandes cuando dw(x,xj) es pequeño. Supongamos que es

k(z)=exp(zσ),

como se sugiere en.[1] El punto de referencia para x se elige de S, por lo que suma de P(Ref(x)= xj|S) para todos debe ser igual a 1.j Por lo tanto, es posible escribir

P(Ref(x)= xj|S)=k(dw(x,xj))j=1nk(dw(x,xj)).

Ahora considere la aplicación Leave-One-out de este clasificador aleatorio, es decir, predecir la etiqueta de xi utilizando los datos en Si, el conjunto de entrenamiento S excluyendo el punto (xi,yi). La probabilidad de que el punto xj se recoge como el punto de referencia para xi Es

pij=P(Ref(xi)= xj|Si)=k(dw(xi,xj))j=1,jink(dw(xi,xj)).

La probabilidad media de una clasificación correcta de la licencia de salida es la probabilidad pi que el clasificador aleatorio clasifique correctamente la observación utilizandoi Si.

pi=j=1,jinP(Ref(xi)=xj|Si)I(yi=yj)=j=1,jinpijyij,

Dónde

yij=I(yi=yj)={1ifyi=yj,0otherwise.

La probabilidad media de una clasificación correcta con el clasificador aleatorio se puede escribir como

F(w)=1ni=1npi.

La parte derecha de F(w) depende del vector de peso w. El objetivo del análisis de componentes de vecindad es maximizar F(w) con respecto a w. utiliza la función de objetivo regularizado introducida en.fscnca[1]

F(w)=1ni=1npiλr=1pwr2=1ni=1n[j=1,jinpijyijλr=1pwr2]Fi(w)=1ni=1nFi(w),

Dónde λ es el parámetro de regularización. El término de regularización impulsa muchos de los pesos en w a 0.

Después de elegir el parámetro del kernel σ En pij como 1, encontrar el vector de peso w se puede expresar como el siguiente problema de minimización para λ.

w^=argminwf(w)=argminw1ni=1nfi(w),

Dónde f(w) = -F(w) Y fi(w) = -Fi(w).

Tenga en cuenta que

1ni=1nj=1,jinpij=1,

y el argumento del mínimo no cambia si se añade una constante a una función objetiva. Por lo tanto, puede volver a escribir la función objetivo agregando la constante 1.

w^=argminw{1+f(w)}=argminw{1ni=1nj=1,jinpij1ni=1nj=1,jinpijyij+λr=1pwr2}=argminw{1ni=1nj=1,jinpij(1yij)+λr=1pwr2}=argminw{1ni=1nj=1,jinpijl(yi,yj)+λr=1pwr2},

donde la función de pérdida se define como

l(yi,yj)={1ifyiyj,0otherwise.

El argumento del mínimo es el vector de peso que minimiza el error de clasificación. Puede especificar una función de pérdida personalizada mediante el argumento de par nombre-valor en la llamada a.LossFunctionfscnca

Selección de características de NCA para regresión

La función realiza la selección de la característica NCA modificada para la regresión.fsrnca Dadas las observacionesn

S={(xi,yi),i=1,2,,n},

la única diferencia con el problema de clasificación es que los valores de respuesta yi son continuas. En este caso, el objetivo es predecir la respuesta y dado el conjunto de entrenamiento S.

Considere un modelo de regresión aleatoria que:

  • Selecciona aleatoriamente un punto (Ref(x)) de Scomo el «punto de referencia» para x

  • Establece el valor de respuesta en x igual al valor de respuesta del punto de referencia Ref(x).

De nuevo, la probabilidad P(Ref(x)= xj|S) ese punto xj se recoge de S como punto de referencia para x Es

P(Ref(x)= xj|S)=k(dw(x,xj))j=1nk(dw(x,xj)).

Ahora considere la aplicación Leave-One-out de este modelo de regresión aleatoria, es decir, predecir la respuesta para xi utilizando los datos en Si, el conjunto de entrenamiento S excluyendo el punto (xi,yi). La probabilidad de que el punto xj se recoge como el punto de referencia para xi Es

pij=P(Ref(xi)= xj|Si)=k(dw(xi,xj))j=1,jink(dw(xi,xj)).

Dejar y^i ser el valor de respuesta que predice el modelo de regresión aleatoria y yi ser la respuesta real para xi. Y deja que l:2 ser una función de pérdida que mide el desacuerdo entre y^i Y yi. A continuación, el valor medio de l(yi,y^i) Es

li=E(l(yi,y^i)|Si)=j=1,jinpijl(yi,yj).

Después de añadir el término de regularización, la función objetiva para la minimización es:

f(w)=1ni=1nli+λr=1pwr2.

La función de pérdida predeterminada l(yi,yj) para el NCA para la regresión es desviación absoluta media, pero usted puede especificar otras funciones de la pérdida, incluyendo una personalizada, usando el argumento del par del nombre-valor en la llamada a.LossFunctionfsrnca

Impacto de la estandarización

El término de regularización deriva los pesos de los predictores irrelevantes a cero. En las funciones objetivas para NCA para clasificación o regresión, sólo hay un parámetro de regularización λ para todos los pesos. Este hecho requiere que las magnitudes de los pesos sean comparables entre sí. Cuando los vectores de característica xi En S se encuentran en escalas diferentes, esto podría dar lugar a pesos que están en escalas diferentes y no significativos. Para evitar esta situación, estandarice los predictores para que tengan una media cero y una desviación estándar de la unidad antes de aplicar NCA. Puede estandarizar los predictores mediante el argumento de par nombre-valor en la llamada a o.'Standardize',truefscncafsrnca

Elegir el valor del parámetro de regularización

Por lo general, es necesario seleccionar un valor del parámetro de regularización calculando la precisión del clasificador de NCA aleatorio o modelo de regresión en un conjunto de pruebas independiente. Si utiliza la validación cruzada en lugar de un único conjunto de pruebas, seleccione la λ valor que minimiza la pérdida media en los pliegues de validación cruzada. Para ver ejemplos, vea y.Ajustar el parámetro de regularización para detectar características mediante NCA para la clasificaciónAjustar el parámetro de regularización en NCA para regresión

Referencias

[1] Yang, W., K. Wang, W. Zuo. "Neighborhood Component Feature Selection for High-Dimensional Data." Journal of Computers. Vol. 7, Number 1, January, 2012.

Consulte también

|