Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Extracción de características

¿Qué es la extracción de características?

La extracción de entidades es un conjunto de métodos que asignan entidades de entrada a nuevas entidades de salida. Muchos métodos de extracción de características utilizan el aprendizaje sin supervisión para extraer características. A diferencia de algunos métodos de extracción de características como PCA y NNMF, los métodos descritos en esta sección pueden aumentar la dimensionalidad (y disminuir la dimensionalidad). Internamente, los métodos implican la optimización de las funciones objetivas no lineales. Para obtener más información, consulte o.Algoritmo de filtrado dispersoReconstrucción algoritmo ICA

Un uso típico de la extracción de entidades es encontrar entidades en las imágenes. El uso de estas características puede dar lugar a una mejor precisión de clasificación. Para ver un ejemplo, vea.Flujo de trabajo de extracción de características Otro uso típico es la extracción de señales individuales de las superposiciones, que a menudo se denomina separación de fuente ciega. Para ver un ejemplo, vea.Extraer señales mixtas

Hay dos funciones de extracción de características: y.ricasparsefilt Asociados con estas funciones son los objetos que crean: y.ReconstructionICASparseFiltering

Algoritmo de filtrado disperso

El algoritmo de filtrado disperso comienza con una matriz de datos que tiene filas y columnas.Xnp Cada fila representa una observación y cada columna representa una medida. Las columnas también se denominan características o predictores. A continuación, el algoritmo toma una matriz inicial aleatoria por peso o utiliza la matriz de ponderación pasada en el par nombre-valor. es el número solicitado de características que calcula.pqWInitialTransformWeightsqsparsefilt

El algoritmo intenta minimizar el uso de un optimizador estándar de memoria limitada Broyden-Fletcher-Goldfarb-Shanno (LBFGS) cuasi Newton.Función objetivo de filtrado disperso Véase Nocedal y Wright.[2] Este optimizador toma hasta iteraciones.IterationLimit Deja de iterar antes cuando se toma un paso cuya norma es menor que, o cuando calcula que la norma del degradado en el punto actual es menor que veces un escalar, dondeStepToleranceGradientToleranceτ

τ=max(1,min(|f|,g0)).

| | es la norma de la función objetiva, yf g0 es la norma de infinito del gradiente inicial.

La función objetiva intenta obtener de forma simultánea pocas entidades que no sean de cero para cada punto de datos, y para cada entidad resultante tiene casi el mismo peso. Para entender cómo la función objetiva intenta alcanzar estos objetivos, véase Ngiam, Koh, Chen, Bhaksar y NG.[1]

Con frecuencia, se obtienen buenas características estableciendo un valor relativamente pequeño de, de tan solo 5 a unos pocos cientos.IterationLimit Permitir que el optimizador continúe puede resultar en un sobreentrenamiento, donde las características extraídas no se generalizan bien a los nuevos datos.

Después de construir un objeto, utilice el método para asignar datos de entrada a las nuevas entidades de salida.SparseFilteringtransform

Función objetivo de filtrado disperso

Para calcular una función objetiva, el algoritmo de filtrado disperso utiliza los siguientes pasos. La función objetiva depende de la matriz-por-datos y una matriz de peso que el optimizador varía.npXW La matriz de peso tiene dimensiones por-, donde es el número de características originales y es el número de características solicitadas.Wpqpq

  1. Calcule la-por-matriz.nqX*W Aplique la función de valor absoluto aproximado ϕ(u)=u2+108 a cada elemento de obtener la matriz. es una función simétrica no negativa suave que se aproxima estrechamente a la función de valor absoluto.X*WFϕ

  2. Normalizar las columnas de por el aproximadoFL2 Norma. En otras palabras, defina la matriz normalizada F˜(i,j) Por

    F(j)=i=1n(F(i,j))2+108F˜(i,j)=F(i,j)/F(j).

  3. Normalizar las filas de F˜(i,j) por el aproximadoL2 Norma. En otras palabras, defina la matriz normalizada F^(i,j) Por

    F˜(i)=j=1q(F˜(i,j))2+108F^(i,j)=F˜(i,j)/F˜(i).

    La matriz F^ es la matriz de características convertidas en.X Una vez que encuentra las ponderaciones que minimizan la función objetiva (véase más adelante), que la función almacena en el objeto de salida de la propiedad, la función puede seguir los mismos pasos de transformación para convertir nuevos datos en entidades de salida.sparsefiltWhMdlMdl.TransformWeightstransform

  4. Calcule la función objetiva () como la norma 1 de la matrizhW F^(i,j), es decir, la suma de todos los elementos de la matriz (que no son negativos por construcción):

    h(W)=j=1qi=1nF^(i,j).

  5. Si establece el par nombre-valor en un valor estrictamente positivo, utiliza la siguiente función objetivo modificada:Lambdasparsefilt

    h(W)=j=1qi=1nF^(i,j)+λj=1qwjTwj.

    Aquí Wj es la columna JTH de la matriz y es el valor de.WλLambda El efecto de este término es reducir las ponderaciones.W Si usted traza las columnas de como imágenes, con positivo estas imágenes aparecen lisas en comparación con las mismas imágenes con cero.WLambdaLambda

Reconstrucción algoritmo ICA

El algoritmo de análisis de componentes independientes de reconstrucción (RICA) se basa en minimizar una función objetiva. El algoritmo asigna datos de entrada a entidades de salida.

El modelo de origen ICA es el siguiente. Cada observación es generada por un vector aleatorio segúnxs

x=μ+As.

  • es un vector de columna de longitud.xp

  • es un vector de columna de longitud que representa un término constante.μp

  • es un vector de columna de longitud cuyos elementos son de media cero, variables aleatorias de desviación de unidad que son estadísticamente independientes entre sí.sq

  • es una matriz de mezcla de tamaño por.Apq

Puede utilizar este modelo para estimar a partir de las observaciones de.ricaAx Ver.Extraer señales mixtas

El algoritmo de RICA comienza con una matriz de datos que tiene filas y columnas que consisten en las observacionesXnp Xi:

X=[x1Tx2TxnT].

Cada fila representa una observación y cada columna representa una medida. Las columnas también se denominan características o predictores. A continuación, el algoritmo toma una matriz inicial aleatoria por peso o utiliza la matriz de ponderación pasada en el par nombre-valor. es el número solicitado de características que calcula.pqWInitialTransformWeightsqrica La matriz de peso se compone de columnasW Wi de tamaño por 1:p

W=[w1w2wq].

El algoritmo intenta minimizar el uso de un optimizador estándar de memoria limitada Broyden-Fletcher-Goldfarb-Shanno (LBFGS) cuasi Newton.Función objetivo de reconstrucción ICA Véase Nocedal y Wright.[2] Este optimizador toma hasta iteraciones.IterationLimit Deja de iterar cuando se toma un paso cuya norma es menor que, o cuando calcula que la norma del degradado en el punto actual es menor que veces un escalar, dondeStepToleranceGradientToleranceτ

τ=max(1,min(|f|,g0)).

| | es la norma de la función objetiva, yf g0 es la norma de infinito del gradiente inicial.

La función objetivo intenta obtener una matriz de peso casi ortoonormal que minimiza la suma de los elementos de (), donde es una función (descrita a continuación) que se aplica elementwise a.gXWgXW Para entender cómo la función objetiva intenta alcanzar estos objetivos, vea le, Karpenko, Ngiam y NG.[3]

Después de construir un objeto, utilice el método para asignar datos de entrada a las nuevas entidades de salida.ReconstructionICAtransform

Función objetivo de reconstrucción ICA

La función objetivo utiliza una función de contraste, que se especifica mediante el par nombre-valor.ContrastFcn La función de contraste es una función convexa suave que es similar a un valor absoluto. De forma predeterminada, la función de contraste es g=12log(cosh(2x)). Para otras funciones de contraste disponibles, consulte.ContrastFcn

Para las entidades de salida y matriz de datos, con un parámetro de regularización como valor del par nombre-valor, la función objetiva en términos de la matriz esnpXqλLambdapqW

h=λni=1nWWTxixi22+1ni=1nj=1qσjg(wjTxi)

el Σj son constantes conocidas que son ± 1. Cuando σj = +1, al minimizar la función objetiva se fomenta el histograma deh wjTxi para ser fuertemente alcanzado en 0 (Super gaussiano). Cuando σj = –1, al minimizar la función objetiva se fomenta el histograma deh wjTxi ser más plana cerca de 0 (sub gaussiano). Especifique el Σj valores mediante el par nombre-valor.ricaNonGaussianityIndicator

La función objetiva puede tener un mínimo espurio de cero cuando es cero.hλ Por lo tanto, minimiza que se normalizan a 1.ricahW En otras palabras, cada columna Wj de se define en términos de un vector de columnaW Vj Por

wj=vjvjTvj+108.

minimiza elrica Vj. La matriz mínima resultante proporciona la transformación de los datos de entrada a las entidades de salida.WXXW

Referencias

[1] Ngiam, Jiquan, Zhenghao Chen, Sonia A. Bhaskar, Pang W. Koh, and Andrew Y. Ng. “Sparse Filtering.” Advances in Neural Information Processing Systems. Vol. 24, 2011, pp. 1125–1133. https://papers.nips.cc/paper/4334-sparse-filtering.pdf.

[2] Nocedal, J. and S. J. Wright. Numerical Optimization, Second Edition. Springer Series in Operations Research, Springer Verlag, 2006.

[3] Le, Quoc V., Alexandre Karpenko, Jiquan Ngiam, and Andrew Y. Ng. “ICA with Reconstruction Cost for Efficient Overcomplete Feature Learning.” Advances in Neural Information Processing Systems. Vol. 24, 2011, pp. 1017–1025. https://papers.nips.cc/paper/4467-ica-with-reconstruction-cost-for-efficient-overcomplete-feature-learning.pdf.

Consulte también

| | |

Temas relacionados