Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Regresión lineal multivariada

Introducción a los métodos multivariados

Los conjuntos de datos grandes y de alta dimensión son comunes en la era moderna de la instrumentación basada en computadora y el almacenamiento de datos electrónicos. Los datos de alta dimensión presentan muchos desafíos para la visualización estadística, el análisis y el modelado.

La visualización de datos, por supuesto, es imposible más allá de algunas dimensiones. Como resultado, el reconocimiento de patrones, el preprocesamiento de datos y la selección de modelos deben basarse fuertemente en métodos numéricos.

Un desafío fundamental en el análisis de datos de alta dimensionalidad es el llamado .maldición de la dimensionalidad Las observaciones en un espacio de alta dimensionalidad son necesariamente más densas y menos representativas que las que se encuentran en un espacio de dimensiones reducidas. En las dimensiones superiores, los datos representan los bordes de una distribución de muestreo, ya que las regiones de espacio de mayor dimensión contienen la mayor parte de su volumen cerca de la superficie. (Una concha esférica a-dimensional tiene un volumen, en relación con el volumen total de la esfera, que se aproxima a 1 como aproximaciones infinitas.)dd En las dimensiones elevadas, los puntos de datos típicos en el interior de una distribución se muestrean con menos frecuencia.

A menudo, muchas de las dimensiones de un conjunto de datos (las características medidas) no son útiles para producir un modelo. Las funciones pueden ser irrelevantes o redundantes. Los algoritmos de regresión y clasificación pueden requerir grandes cantidades de tiempo de almacenamiento y cálculo para procesar datos sin procesar, e incluso si los algoritmos son exitosos, los modelos resultantes pueden contener un número incomprensible de términos.

Debido a estos desafíos, los métodos estadísticos multivariados suelen comenzar con algún tipo de , en el que los datos se aproximan por puntos en un espacio de menor dimensión.reducción de la dimensión La reducción de la dimensión es el objetivo de los métodos presentados en este capítulo. La reducción de dimensiones a menudo conduce a modelos más simples y menos variables medidas, con los consiguientes beneficios cuando las mediciones son costosas y la visualización es importante.

Modelo de regresión lineal multivariante

El modelo de regresión lineal multivariante expresa un vector de respuesta continua dimensional como una combinación lineal de términos predictores más un vector de términos de error con una distribución normal multivariada.d Dejar yi=(yi1,,yid) denotan el vector de respuesta para la observación, = 1,...,.iin En el caso más general, dada la matriz de diseñodK Xi y el vector-by-1 de coeficientesKβ, el modelo de regresión lineal multivariada se

yi=Xiβ+εi,

donde el vector-dimensional de términos de error sigue una distribución normal multivariada,d

εiMVNd(0,Σ).

El modelo asume la independencia entre las observaciones, lo que significa que la matriz de desviación-covarianza de error para los vectores de respuesta apiladas-dimensionales esnd

InΣ=(Σ00Σ).

Si y denota el vector-by-1 de las respuestas apiladas en dimensiones, yndd X denota la matriz de matrices de diseño apiladas, la distribución del vector de respuesta esndK

yMVNnd(Xβ,InΣ).

Solución de problemas de regresión multivariada

Para ajustar modelos de regresión lineal multivariada de la forma

yi=Xiβ+εi,εiMVNd(0,Σ)

en, uso.Statistics and Machine Learning Toolbox™mvregress Esta función se ajusta a los modelos de regresión multivariada con una matriz de varianza de la covarianza en diagonal (heterosexual) o no estructurada (heterocásica y correlacionada), Σ, utilizando mínimos cuadrados o estimación de máxima verosimilitud.

Muchas variaciones de la regresión multivariada podrían no parecer inicialmente de la forma admitida por, tal como:mvregress

  • Modelo lineal general multivariado

  • Análisis multivariado de varianza (MANOVA)

  • El análisis longitudinal

  • Análisis de datos del panel

  • Regresión aparentemente no relacionada (SUR)

  • Modelo de Vector Autorregresivo (VAR)

En muchos casos, puede enmarcar estos problemas en el formulario utilizado por (pero no admite la varianza de errores parametrizados-matrices de covarianza).mvregressmvregress Para el caso especial de MANOVA unidireccional, puede utilizar alternativamente. tiene funciones para la estimación de VAR.manova1Econometrics Toolbox™

Nota

El modelo de regresión lineal multivariada es distinto del modelo de regresión lineal múltiple, que modela una respuesta continua como una combinación lineal de términos exógenos más un término de error independiente e idéntico distribuido.univariate Para ajustar un modelo de regresión lineal múltiple, utilice.fitlm

Consulte también

| | |

Ejemplos relacionados

Más acerca de