Main Content

Selección y transformación de características mediante la app Regression Learner

Investigar las características en la gráfica de respuesta

En Regression Learner, utilice la gráfica de respuesta para intentar identificar los predictores que son útiles para predecir la respuesta. Para visualizar la relación entre diferentes predictores y la respuesta, en X-axis, seleccione diferentes variables en la lista X.

Antes de entrenar un modelo de regresión, la gráfica de respuesta muestra los datos de entrenamiento. Si ha entrenado un modelo de regresión, la gráfica de respuesta también muestra las predicciones del modelo.

Observe qué variables se asocian más claramente con la respuesta. Cuando se representa el conjunto de datos carbig, el predictor Horsepower muestra una clara asociación negativa con la respuesta.

Busque características que no parezcan tener ninguna asociación con la respuesta y utilice Feature Selection para eliminar esas características del conjunto de predictores utilizados. Consulte Seleccionar características que desea incluir.

Response plot of car data, with miles per gallon on the vertical axis and horsepower on the horizontal axis

Puede exportar a figuras las gráficas de respuesta que cree en la app. Consulte Export Plots in Regression Learner App.

Seleccionar características que desea incluir

En Regression Learner, puede especificar diferentes características (o predictores) para que se incluyan en el modelo. Compruebe si puede mejorar los modelos eliminando características con escaso poder predictivo. Si la recogida de datos es costosa o difícil, puede que prefiera un modelo que funcione de forma satisfactoria con menos predictores.

Puede determinar qué predictores importantes incluir utilizando diferentes algoritmos de clasificación de características. Tras seleccionar un algoritmo de clasificación de características, la app muestra una gráfica de las puntuaciones ordenadas según la importancia de las características, en la que las puntuaciones más altas (incluyendo valores Inf) indican una mayor importancia de estas. La app también muestra las características clasificadas y sus puntuaciones en una tabla.

Para utilizar algoritmos de clasificación de características en Regression Learner, haga clic en Feature Selection en la sección Options de la pestaña Learn. La app abre la pestaña Default Feature Selection, donde puede elegir un algoritmo de clasificación de características.

Algoritmo de clasificación de característicasTipo de datos admitidosDescripción
MRMRCaracterísticas categóricas y continuas

Clasifica las características de manera secuencial utilizando el Minimum Redundancy Maximum Relevance (MRMR) Algorithm.

Para obtener más información, consulte fsrmrmr.

F TestCaracterísticas categóricas y continuas

Examina la importancia de cada predictor individualmente utilizando una prueba F y, después, clasifica las características utilizando los valores p de las estadísticas de prueba de F. Cada prueba de F comprueba la hipótesis de que los valores de respuesta agrupados por valores de variables predictoras proceden de poblaciones con la misma media frente a la hipótesis alternativa de que las medias de las poblaciones no son todas iguales. Las puntuaciones corresponden a –log(p).

Para obtener más información, consulte fsrftest.

RReliefFTodas las características categóricas o todas las continuas

Clasifica las características mediante el algoritmo RReliefF con los 10 vecinos más cercanos. Este algoritmo funciona mejor para estimar la importancia de las características en modelos supervisados basados en distancias que utilizan distancias entre pares de observaciones para predecir la respuesta.

Para obtener más información, consulte relieff.

Elija entre seleccionar las características mejor clasificadas o seleccionar características individuales.

  • Elija Select highest ranked features para evitar sesgos en las métricas de validación. Por ejemplo, si se utiliza un esquema de validación cruzada, la app realiza una selección de características en cada partición de entrenamiento antes de entrenar un modelo. Diferentes particiones pueden seleccionar diferentes predictores como las características mejor clasificadas.

  • Elija Select individual features para incluir características específicas en el entrenamiento del modelo. Si utiliza un esquema de validación cruzada, la app empleará las mismas características en todas las particiones de entrenamiento.

Cuando haya terminado de seleccionar las características, haga clic en Save and Apply. Las selecciones afectan a todos los modelos borrador del panel Models y se aplicarán a los nuevos modelos borrador que cree utilizando la galería de la sección Models de la pestaña Learn.

Para seleccionar las características de un único modelo borrador, abra y edite el resumen del modelo. Haga clic en el modelo en el panel Models y, a continuación, haga clic en la pestaña Summary del modelo (si es necesario). La pestaña Summary incluye la sección Feature Selection que se puede editar.

Después de entrenar un modelo, la sección Feature Selection de la pestaña Summary del modelo enumera las características utilizadas para entrenar el modelo completo, es decir, el modelo entrenado, utilizando datos de entrenamiento y validación. Para obtener más información sobre cómo Regression Learner aplica la selección de características a los datos, genere código para su modelo de regresión entrenado. Para obtener más información, consulte Generate MATLAB Code to Train Model with New Data.

Para ver un ejemplo en el que se use la selección de características, consulte Train Regression Trees Using Regression Learner App.

Transformar características con PCA en Regression Learner

Use el análisis de componentes principales (PCA, por sus siglas en inglés) para reducir la dimensionalidad del espacio predictor. Al reducir la dimensionalidad se pueden crear modelos de regresión en Regression Learner que ayudan a evitar el sobreajuste. El PCA transforma linealmente los predictores para eliminar las dimensiones redundantes y genera un nuevo conjunto de variables denominadas componentes principales.

  1. En la pestaña Learn, en la sección Options, seleccione PCA.

  2. En el cuadro de diálogo Default PCA Options, seleccione la casilla de verificación Enable PCA y, a continuación, haga clic en Save and Apply.

    La app ejecuta los cambios en todos los modelos borrador del panel Models y en los nuevos modelos borrador creados con la galería de la sección Models de la pestaña Learn.

  3. Cuando vuelva a entrenar un modelo con el botón Train All, la función pca transforma las características seleccionadas antes de entrenar el modelo.

  4. De forma predeterminada, PCA solo conserva los componentes que explican el 95% de la varianza. En el cuadro de diálogo Default PCA Options, puede cambiar el porcentaje de varianza que se desea explicar si selecciona el valor Explained variance. Con un valor más alto se corre el riesgo de realizar un sobreajuste, mientras que con un valor más bajo se corre el riesgo de eliminar dimensiones útiles.

  5. Si desea limitar manualmente el número de componentes del PCA, seleccione Specify number of components en la lista Component reduction criterion. Seleccione el valor Number of numeric components. El número de componentes no puede ser mayor que el número de predictores numéricos. El PCA no se aplica a predictores categóricos.

Puede comprobar las opciones del PCA de los modelos entrenados en la sección PCA de la pestaña Summary. Haga clic en un modelo entrenado en el panel Models y, a continuación, haga clic en la pestaña Summary del modelo (si es necesario). Por ejemplo:

PCA is keeping enough components to explain 95% variance. 
After training, 2 components were kept. 
Explained variance per component (in order): 92.5%, 5.3%, 1.7%, 0.5%
Compruebe los porcentajes de varianza explicados para decidir si debe cambiar el número de componentes.

Para obtener más información sobre cómo Regression Learner aplica el PCA a los datos, genere código para su modelo de regresión entrenado. Para obtener más información sobre el PCA, consulte la función pca.

Temas relacionados