Regresión lineal

Introducción

Un modelo de datos describe explícitamente una relación entre las variables predictivas y las variables de respuesta. La regresión lineal ajusta un modelo de datos que es lineal en los coeficientes del modelo. El tipo más común de regresión lineal es un ajuste de mínimos cuadrados, que puede ajustar tanto a las líneas como a los polinomios, entre otros modelos lineales.

Antes de modelizar la relación entre pares de cantidades, conviene realizar un análisis de correlación para saber si hay una relación lineal entre estas cantidades. Tenga en cuenta que las variables pueden tener relaciones no lineales que el análisis de correlación no puede detectar. Para obtener más información, consulte Correlación lineal.

La interfaz de usuario de ajuste básico de MATLAB^® le permite ajustar sus datos, de modo que puede calcular los coeficientes del modelo y representar el modelo en la parte superior de los datos. Para ver un ejemplo, consulte Ejemplo: Usar la interfaz de usuario de ajuste básico. También puede utilizar las funciones de MATLAB polyfit y polyval para ajustar sus datos a un modelo lineal en los coeficientes. Para ver un ejemplo, consulte Ajuste programático.

Si necesita ajustar los datos con un modelo no lineal, transforme las variables para que la relación sea lineal. Alternativamente, intente ajustar una función no lineal directamente con la función Statistics and Machine Learning Toolbox™ nlinfit, con la función Optimization Toolbox™ lsqcurvefit o aplicando las funciones en Curve Fitting Toolbox™.

En este tema se explica cómo:

Realizar una regresión lineal simple con el operador \.
Utilizar el análisis de correlación para determinar si dos cantidades están relacionadas para justificar el ajuste de los datos.
Ajustar un modelo lineal a los datos.
Evaluar la bondad del ajuste representando valores residuales y buscando patrones.
Calcular las medidas de bondad del ajuste R² y R² ajustado

Regresión lineal simple

Abrir script en vivo

En este ejemplo se muestra cómo realizar una regresión lineal simple con el conjunto de datos accidents. En el ejemplo también se muestra cómo calcular el coeficiente de determinación $R^{2}$ para evaluar las regresiones. El conjunto de datos accidents contiene datos sobre accidentes de tráfico mortales en estados de Estados Unidos.

La regresión lineal modeliza la relación entre una variable $y$ dependiente o de respuesta y una o más variables $x_{1}, . . ., x_{n}$ independientes o predictivas. La regresión lineal simple solo considera una variable independiente mediante la relación

$y = β_{0} + β_{1} x + ϵ,$

en la que $β_{0}$ es la intersección en y, $β_{1}$ es la pendiente (o coeficiente de regresión) y $ϵ$ es el término de error.

Comience con un conjunto de valores observados de $n$ de $x$ y $y$ dados por $(x_{1}, y_{1})$ , $(x_{2}, y_{2})$ , ..., $(x_{n}, y_{n})$ . Al utilizar la relación de regresión lineal simple, estos valores forman un sistema de ecuaciones lineales. Represente estas ecuaciones en forma de matriz como

$[\begin{array}{c} y_{1} \\ y_{2} \\ ⋮ \\ y_{n} \end{array}] = [\begin{array}{c} 1 & x_{1} \\ 1 & x_{2} \\ ⋮ & ⋮ \\ 1 & x_{n} \end{array}] [\begin{array}{c} β_{0} \\ β_{1} \end{array}] .$

Deje

$Y = [\begin{array}{c} y_{1} \\ y_{2} \\ ⋮ \\ y_{n} \end{array}], X = [\begin{array}{c} 1 & x_{1} \\ 1 & x_{2} \\ ⋮ & ⋮ \\ 1 & x_{n} \end{array}], B = [\begin{array}{c} β_{0} \\ β_{1} \end{array}] .$

La relación es ahora $Y = X B$ .

En MATLAB, puede encontrar $B$ usando el operador mldivide como B = X\Y.

A partir del conjunto de datos accidents, cargue los datos de accidentes en y y los datos de población de estado en x. Encuentre la relación de regresión lineal $y = β_{1} x$ entre los accidentes ocurridos en un estado y la población de un estado mediante el operador \. El operador \ realiza una regresión de mínimos cuadrados.

load accidents
x = hwydata(:,14); %Population of states
y = hwydata(:,4); %Accidents per state
format long
b1 = x\y

b1 = 
     1.372716735564871e-04

b1 es la pendiente o el coeficiente de regresión. La relación lineal es $y = β_{1} x = 0.0001372 x$ .

Calcule los accidentes por estado yCalc de x utilizando la relación. Visualice la regresión representando los valores reales y y los valores calculados yCalc.

yCalc1 = b1*x;
scatter(x,y)
hold on
plot(x,yCalc1)
xlabel('Population of state')
ylabel('Fatal traffic accidents per state')
title('Linear Regression Relation Between Accidents & Population')
grid on

Figure contains an axes object. The axes object with title Linear Regression Relation Between Accidents & Population, xlabel Population of state, ylabel Fatal traffic accidents per state contains 2 objects of type scatter, line.

Mejore el ajuste mediante la inclusión de una intersección en y $β_{0}$ en su modelo como $y = β_{0} + β_{1} x$ . Calcule $β_{0}$ rellenando x con una columna de unos y utilizando el operador \.

X = [ones(length(x),1) x];
b = X\y

b = 2×1
10² ×

   1.427120171726538
   0.000001256394274

Este resultado representa la relación $y = β_{0} + β_{1} x = 142.7120 + 0.0001256 x$ .

Visualice la relación representándola en la misma figura.

yCalc2 = X*b;
plot(x,yCalc2,'--')
legend('Data','Slope','Slope & Intercept','Location','best');

En la figura, los dos ajustes tienen un aspecto similar. Un método para encontrar el mejor ajuste es calcular el coeficiente de determinación, $R^{2}$ . $R^{2}$ es una medida de lo bien que puede predecir un modelo los datos y se sitúa entre $0$ y $1$ . Cuanto mayor sea el valor de $R^{2}$ , mejor será el modelo para predecir los datos.

Donde $y_{}^{ˆ}$ representa los valores calculados de $y$ y $y_{}^{‾}$ es la media de $y$ $R^{2}$ se define como

$R^{2} = 1 - \frac{\sum_{i = 1}^{n} {(y_{i} - {y_{}^{ˆ}}_{i})}^{2}}{\sum_{i = 1}^{n} {(y_{i} - y_{}^{‾})}^{2}} .$

Encuentre el mejor ajuste de los dos ajustes comparando los valores de $R^{2}$ . Como muestran los valores $R^{2}$ , el segundo ajuste que incluye una intercepción en y es mejor.

Rsq1 = 1 - sum((y - yCalc1).^2)/sum((y - mean(y)).^2)

Rsq1 = 
   0.822235650485566

Rsq2 = 1 - sum((y - yCalc2).^2)/sum((y - mean(y)).^2)

Rsq2 = 
   0.838210531103428

Valores residuales y bondad del ajuste

Los valores residuales son la diferencia entre los valores observados de la variable (dependiente) de respuesta y los valores que un modelo predice. Cuando ajusta un modelo adecuado para sus datos, los valores residuales se aproximan a errores aleatorios independientes. Es decir, la distribución de los valores residuales no debe mostrar un patrón discernible.

La producción de un ajuste utilizando un modelo lineal requiere minimizar la suma de los cuadrados de los valores residuales. Esta minimización produce lo que se llama un ajuste de mínimos cuadrados. Puede obtener información sobre la "bondad" de un ajuste examinando visualmente una gráfica de los valores residuales. Si la gráfica residual tiene un patrón (es decir, los puntos de datos residuales no parecen tener una dispersión aleatoria), la aleatoriedad indica que el modelo no ajusta correctamente los datos.

Evalúe cada ajuste que realice en el contexto de sus datos. Por ejemplo, si su objetivo de ajustar los datos es extraer coeficientes que tengan significado físico, es importante que el modelo refleje la física de los datos. Comprender lo que representan sus datos, cómo se midieron y cómo se modelizan es importante al evaluar la bondad del ajuste.

Una medida de bondad de ajuste es el coeficiente de determinación o R² (pronunciado R al cuadrado). Esta estadística indica la precisión con la que los valores que obtiene al ajustar un modelo coinciden con la variable dependiente que el modelo está destinado a predecir. Los estadísticos a menudo definen R² utilizando la varianza residual de un modelo ajustado:

R² = 1 – SS_resid/SS_total

SS_resid es la suma de los valores residuales al cuadrado de la regresión. SS_total es la suma de las diferencias cuadradas a partir de la media de la variable dependiente (suma total de cuadrados). Ambos son escalares positivos.

Para obtener información sobre cómo calcular R² cuando utilice la herramienta de ajuste básico, consulte R2, el coeficiente de determinación. Para obtener más información sobre el cálculo de la estadística de ^R2 y su generalización multivariada, siga leyendo.

Ejemplo: Calcular R² a partir del ajuste polinomial

Puede derivar R² de los coeficientes de una regresión polinomial para determinar cuánta varianza en y explica un modelo lineal, como se describe en el ejemplo siguiente:

Cree dos variables, x e y, a partir de las dos primeras columnas de la variable count en el archivo de datos count.dat:
```
load count.dat
x = count(:,1);
y = count(:,2);
```
Utilice polyfit para calcular una regresión lineal que predice y a partir de x:
```
p = polyfit(x,y,1)

p =
    1.5229   -2.1911
```
p(1) es la pendiente y p(2) es el intercepto del predictor lineal. También puede obtener coeficientes de regresión utilizando la interfaz de usuario de ajuste básico.
Llame a la función polyval para usar p para predecir y nombrando al resultado yfit:
```
yfit = polyval(p,x);
```
El uso de polyval le ahorra escribir la ecuación de ajuste, que en este caso tiene este aspecto:
```
yfit =  p(1) * x + p(2);
```
Calcule los valores residuales como un vector de números enteros:
```
yresid = y - yfit;
```
Cuadre los valores residuales y súmelos para obtener la suma residual de cuadrados:
```
SSresid = sum(yresid.^2);
```
Calcule la suma total de cuadrados de y multiplicando la varianza de y por el número de observaciones menos 1:
```
SStotal = (length(y)-1) * var(y);
```
Calcule R² utilizando la fórmula dada en la introducción de este tema:
```
rsq = 1 - SSresid/SStotal

rsq =
    0.8707
```
Esto demuestra que la ecuación lineal 1.5229 * x -2.1911 predice el 87% de la variable y.

Calcular R² ajustado para regresiones polinomiales

Por lo general, puede reducir los valores residuales en un modelo ajustando un polinomio de mayor grado. Cuando añade más términos, aumenta el coeficiente de determinación, R². Obtiene un ajuste más cercano a los datos, pero a expensas de un modelo más complejo, para el que R² no se puede tener en cuenta. Sin embargo, un refinamiento de esta estadística, R² ajustado, incluye una penalización por el número de términos en un modelo. Por lo tanto, R² ajustado es más adecuado para comparar cómo se ajustan los diferentes modelos a los mismos datos. El R² ajustado se define como:

R²_ajustado = 1 - (SS_resid/SS_total)*((n-1)/(n-d-1))

donde n es el número de observaciones en los datos y d es el grado del polinomio. (Un ajuste lineal tiene un grado de 1, un ajuste cuadrático 2, un ajuste cúbico 3 y así sucesivamente).

En el ejemplo siguiente se repiten los pasos del ejemplo anterior, Ejemplo: Calcular R2 a partir del ajuste polinomial, pero se realiza un ajuste cúbico (grado 3) en lugar de un ajuste lineal (grado 1). A partir del ajuste cúbico, se calculan los valores simples y ajustados de R² para evaluar si los términos adicionales mejoran la potencia predictiva:

Cree dos variables, x e y, a partir de las dos primeras columnas de la variable count en el archivo de datos count.dat:
```
load count.dat
x = count(:,1);
y = count(:,2);
```
Llame a la función polyfit para generar un ajuste cúbico para predecir y a partir de x:
```
p = polyfit(x,y,3)

p =
   -0.0003    0.0390    0.2233    6.2779
```
p(4) es el intercepto del predictor cúbico. También puede obtener coeficientes de regresión utilizando la interfaz de usuario de ajuste básico.
Llame a la función polyval para utilizar los coeficientes en p para predecir y nombrando al resultado yfit:
```
yfit = polyval(p,x);
```
polyval evalúa la ecuación explícita que puede introducir de forma manual como:
```
yfit =  p(1) * x.^3 + p(2) * x.^2 + p(3) * x + p(4);
```
Calcule los valores residuales como un vector de números enteros:
```
yresid = y - yfit;
```
Cuadre los valores residuales y súmelos para obtener la suma residual de cuadrados:
```
SSresid = sum(yresid.^2);
```
Calcule la suma total de cuadrados de y multiplicando la varianza de y por el número de observaciones menos 1:
```
SStotal = (length(y)-1) * var(y);
```
Calcule R² simple para el ajuste cúbico utilizando la fórmula dada en la introducción de este tema:
```
rsq = 1 - SSresid/SStotal

rsq =
    0.9083
```
Por último, calcule R² ajustado para tener en cuenta los grados de libertad:
```
rsq_adj = 1 - SSresid/SStotal * (length(y)-1)/(length(y)-length(p))

rsq_adj =
    0.8945
```
El R² ajustado, 0,8945, es más pequeño que el R² simple, 0,9083. Proporciona una estimación más fiable de la potencia de su modelo polinomial que se va a predecir.

En muchos modelos de regresión polinomial, la adición de términos a la ecuación aumenta tanto R² como R² ajustado. En el ejemplo anterior, el uso de un ajuste cúbico aumentó ambas estadísticas en comparación con un ajuste lineal. (Puede calcular R² ajustado para el ajuste lineal usted mismo para demostrar que tiene un valor más bajo). Sin embargo, no siempre es cierto que un ajuste lineal es peor que un ajuste de orden superior: un ajuste más complicado puede tener un R² ajustado más bajo que un ajuste más simple, lo que indica que el aumento de la complejidad no está justificado. Además, mientras que el valor de R² siempre varía entre 0 y 1 para los modelos de regresión polinomial que genera la herramienta de ajuste básico, el R² ajustado para algunos modelos puede ser negativo, lo que indica que un modelo tiene demasiados términos.

La correlación no implica causalidad. Interprete siempre los coeficientes de correlación y determinación con cautela. Los coeficientes solo cuantifican la cantidad de varianza en una variable dependiente que elimina un modelo ajustado. Estas medidas no describen la pertinencia del modelo (o las variables independientes que seleccione) para explicar el comportamiento de la variable que predice el modelo.

Ajustar datos con las funciones Curve Fitting Toolbox

Curve Fitting Toolbox amplía la funcionalidad principal de MATLAB habilitando las siguientes prestaciones de ajuste de datos:

Ajuste paramétrico lineal y no lineal, incluidos los mínimos cuadrados lineales estándar, los mínimos cuadrados no lineales, los mínimos cuadrados ponderados, los mínimos cuadrados restringidos y los procedimientos de ajuste robustos
Ajuste no paramétrico
Estadísticas para determinar la bondad del ajuste
Extrapolación, diferenciación e integración
Cuadro de diálogo que facilita la sección y el suavizado de datos
Guardar los resultados de ajuste en varios formatos, incluidos los archivos de código de MATLAB, los archivos MAT y las variables del área de trabajo

Para obtener más información, consulte Curve Fitting Toolbox.