Main Content

Selección y transformación de características mediante la app Classification Learner

Investigar las características en la gráfica de dispersión

En Classification Learner, intente identificar los predictores que separan bien las clases representando diferentes pares de predictores en la gráfica de dispersión. La gráfica puede ayudarle a investigar las características que desee incluir o excluir. Puede visualizar los datos de entrenamiento y los puntos mal clasificados en la gráfica de dispersión.

Antes de entrenar un clasificador, la gráfica de dispersión muestra los datos. Si ha entrenado un clasificador, la gráfica de dispersión muestra los resultados de predicción del modelo. Cambie a la representación de los datos únicamente seleccionando Data en los controles de Plot.

  • Elija las características que desea representar utilizando las listas X e Y en Predictors.

  • Busque predictores que separen bien las clases. Por ejemplo, al representar los datos fisheriris, se puede ver que la longitud y la anchura de los sépalos separan bien una de las clases (setosa). Necesita representar otros predictores para ver si puede separar las otras dos clases.

    Scatter plot of the Fisher iris data

  • Muestre u oculte clases específicas usando las casillas de Show.

  • Cambie el orden de apilamiento de las clases representadas seleccionando una clase en Classes y haciendo clic en Move to Front.

  • Descubra detalles más precisos haciendo zoom y desplazándose por la gráfica. Para activar el zoom o el desplazamiento, pase el ratón por encima de la gráfica de dispersión y haga clic en el botón correspondiente de la barra de herramientas que aparece en la parte superior derecha de la gráfica.

  • Si identifica predictores que no son útiles para separar las clases, intente utilizar Feature Selection para eliminarlos y entrenar clasificadores que incluyan solo los predictores más útiles. Consulte Seleccionar características que desea incluir.

Después de entrenar un clasificador, la gráfica de dispersión muestra los resultados de predicción del modelo. Puede mostrar u ocultar los resultados correctos o incorrectos y visualizar los resultados por clase. Consulte Plot Classifier Results.

Puede exportar a figuras las gráficas de dispersión que cree en la app. Consulte Export Plots in Classification Learner App.

Seleccionar características que desea incluir

En Classification Learner, puede especificar diferentes características (o predictores) para que se incluyan en el modelo. Compruebe si puede mejorar los modelos eliminando características con escaso poder predictivo. Si la recogida de datos es costosa o difícil, puede que prefiera un modelo que funcione de forma satisfactoria sin algunos predictores.

Puede determinar qué predictores importantes incluir utilizando diferentes algoritmos de clasificación de características. Tras seleccionar un algoritmo de clasificación de características, la app muestra una gráfica de las puntuaciones ordenadas según la importancia de las características, en la que las puntuaciones más altas (incluyendo valores Inf) indican una mayor importancia de estas. La app también muestra las características clasificadas y sus puntuaciones en una tabla.

Para utilizar algoritmos de clasificación de características en Classification Learner, haga clic en Feature Selection en la sección Options de la pestaña Learn. La app abre la pestaña Default Feature Selection, donde puede elegir un algoritmo de clasificación de características.

Algoritmo de clasificación de característicasTipo de datos admitidosDescripción
MRMRCaracterísticas categóricas y continuas

Clasifica las características de manera secuencial utilizando el Minimum Redundancy Maximum Relevance (MRMR) Algorithm.

Para obtener más información, consulte fscmrmr.

Chi2Características categóricas y continuas

Examina si cada variable de predicción es independiente de la variable de respuesta mediante pruebas de chi-cuadrado individuales y, a continuación, clasifica las características utilizando los valores p de las estadísticas de prueba de chi-cuadrado. Las puntuaciones corresponden a –log(p).

Para obtener más información, consulte fscchi2.

ReliefFTodas las características categóricas o todas las continuas

Clasifica las características mediante el algoritmo ReliefF con los 10 vecinos más cercanos. Este algoritmo funciona mejor para estimar la importancia de las características en modelos supervisados basados en distancias que utilizan distancias entre pares de observaciones para predecir la respuesta.

Para obtener más información, consulte relieff.

ANOVACaracterísticas categóricas y continuas

Realiza un análisis de varianza de un factor para cada variable de predicción, agrupada por clase y, a continuación, clasifica las características utilizando los valores p. En cada variable de predicción, la app comprueba la hipótesis de que los valores de predicción agrupados por las clases de respuesta proceden de poblaciones con la misma media frente a la hipótesis alternativa de que las medias de las poblaciones no son todas iguales. Las puntuaciones corresponden a –log(p).

Para obtener más información, consulte anova1.

Kruskal WallisCaracterísticas categóricas y continuas

Clasifica las características utilizando los valores p devueltos por la Kruskal-Wallis Test. En cada variable de predicción, la app comprueba la hipótesis de que los valores de predicción agrupados por las clases de respuesta proceden de poblaciones con la misma mediana frente a la hipótesis alternativa de que las medianas de las poblaciones no son todas iguales. Las puntuaciones corresponden a –log(p).

Para obtener más información, consulte kruskalwallis.

Elija entre seleccionar las características mejor clasificadas o seleccionar características individuales.

  • Elija Select highest ranked features para evitar sesgos en las métricas de validación. Por ejemplo, si se utiliza un esquema de validación cruzada, la app realiza una selección de características en cada partición de entrenamiento antes de entrenar un modelo. Diferentes particiones pueden seleccionar diferentes predictores como las características mejor clasificadas.

  • Elija Select individual features para incluir características específicas en el entrenamiento del modelo. Si utiliza un esquema de validación cruzada, la app empleará las mismas características en todas las particiones de entrenamiento.

Cuando haya terminado de seleccionar las características, haga clic en Save and Apply. Las selecciones afectan a todos los modelos borrador del panel Models y se aplicarán a los nuevos modelos borrador que cree utilizando la galería de la sección Models de la pestaña Learn.

Para seleccionar las características de un único modelo borrador, abra y edite el resumen del modelo. Haga clic en el modelo en el panel Models y, a continuación, haga clic en la pestaña Summary del modelo (si es necesario). La pestaña Summary incluye la sección Feature Selection que se puede editar.

Después de entrenar un modelo, la sección Feature Selection de la pestaña Summary del modelo enumera las características utilizadas para entrenar el modelo completo, es decir, el modelo entrenado, utilizando datos de entrenamiento y validación. Para obtener más información sobre cómo Classification Learner aplica la selección de características a sus datos, genere código para su clasificador entrenado. Para obtener más información, consulte Generate MATLAB Code to Train the Model with New Data.

Para ver un ejemplo en el que se use la selección de características, consulte Train Decision Trees Using Classification Learner App.

Transformar características con PCA en Classification Learner

Use el análisis de componentes principales (PCA, por sus siglas en inglés) para reducir la dimensionalidad del espacio predictor. Al reducir la dimensionalidad se pueden crear modelos de clasificación en Classification Learner que ayudan a evitar el sobreajuste. El PCA transforma linealmente los predictores para eliminar las dimensiones redundantes y genera un nuevo conjunto de variables denominadas componentes principales.

  1. En la pestaña Learn, en la sección Options, seleccione PCA.

  2. En el cuadro de diálogo Default PCA Options, seleccione la casilla de verificación Enable PCA y, a continuación, haga clic en Save and Apply.

    La app ejecuta los cambios en todos los modelos borrador del panel Models y en los nuevos modelos borrador creados con la galería de la sección Models de la pestaña Learn.

  3. Cuando vuelva a entrenar un modelo con el botón Train All, la función pca transforma las características seleccionadas antes de entrenar el clasificador.

  4. De forma predeterminada, PCA solo conserva los componentes que explican el 95% de la varianza. En el cuadro de diálogo Default PCA Options, puede cambiar el porcentaje de varianza que se desea explicar si selecciona el valor Explained variance. Con un valor más alto se corre el riesgo de realizar un sobreajuste, mientras que con un valor más bajo se corre el riesgo de eliminar dimensiones útiles.

  5. Si desea limitar manualmente el número de componentes del PCA, seleccione Specify number of components en la lista Component reduction criterion. Seleccione el valor Number of numeric components. El número de componentes no puede ser mayor que el número de predictores numéricos. El PCA no se aplica a predictores categóricos.

Puede comprobar las opciones del PCA de los modelos entrenados en la sección PCA de la pestaña Summary. Haga clic en un modelo entrenado en el panel Models y, a continuación, haga clic en la pestaña Summary del modelo (si es necesario). Por ejemplo:

PCA is keeping enough components to explain 95% variance. 
After training, 2 components were kept. 
Explained variance per component (in order): 92.5%, 5.3%, 1.7%, 0.5%
Compruebe los porcentajes de varianza explicados para decidir si debe cambiar el número de componentes.

Para obtener más información sobre cómo Classification Learner aplica el PCA a sus datos, genere código para su clasificador entrenado. Para obtener más información sobre el PCA, consulte la función pca.

Investigar las características de la gráfica de coordenadas paralelas

Para investigar las características que desea incluir o excluir, utilice la gráfica de coordenadas paralelas. Puede visualizar datos de alto número de dimensiones en una única gráfica para ver patrones 2D. La gráfica puede ayudarle a comprender las relaciones entre características y a identificar predictores útiles para separar clases. Puede visualizar los datos de entrenamiento y los puntos mal clasificados en la gráfica de coordenadas paralelas. Al representar los resultados del clasificador, los puntos mal clasificados tienen líneas discontinuas.

  1. En la sección Plots and Results de la pestaña Learn, haga clic en la flecha para abrir la galería y, a continuación, haga clic en Parallel Coordinates en el grupo Validation Results.

  2. En la gráfica, arrastre las etiquetas X para reordenar los predictores. Cambiar el orden puede ayudarle a identificar los predictores que separan bien las clases.

  3. Para especificar qué predictores representar, marque las casillas Predictors. Una buena práctica consiste en representar unos pocos predictores a la vez. Si sus datos tienen muchos predictores, la gráfica muestra por defecto los 10 primeros.

  4. Si los predictores tienen escalas significativamente diferentes, escale los datos para facilitar su visualización. Pruebe distintas opciones de la lista Scaling:

    • None muestra datos brutos a lo largo de las reglas de coordenadas que tienen los mismos límites mínimo y máximo.

    • Range muestra datos brutos a lo largo de las reglas de coordenadas que tienen límites mínimos y máximos independientes.

    • Z-Score muestra puntuaciones z (con una media de 0 y una desviación estándar de 1) a lo largo de cada regla de coordenadas.

    • Zero Mean muestra datos centrados para tener una media de 0 a lo largo de cada regla de coordenadas.

    • Unit Variance muestra valores escalados por desviación estándar a lo largo de cada regla de coordenadas.

    • L2 Norm muestra valores de norma 2 a lo largo de cada regla de coordenadas.

  5. Si identifica predictores que no son útiles para separar las clases, use Feature Selection para eliminarlos y entrenar clasificadores que incluyan solo los predictores más útiles. Consulte Seleccionar características que desea incluir.

La gráfica de los datos fisheriris muestra que la longitud y la anchura de los pétalos son las características que mejor separan las clases.

Parallel coordinates plot displaying classifier results for the Fisher iris data

Para obtener más información, consulte parallelplot.

Puede exportar las gráficas de coordenadas paralelas que cree en la app como figuras. Consulte Export Plots in Classification Learner App.

Temas relacionados