Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.
Este ejemplo muestra cómo mostrar e interpretar las estadísticas de salida de regresión lineal.
Cargue el conjunto de datos, un conjunto de datos de entrada de matriz.carsmall
load carsmall X = [Weight,Horsepower,Acceleration];
Ajuste un modelo de regresión lineal utilizando .fitlm
lm = fitlm(X,MPG)
lm = Linear regression model: y ~ 1 + x1 + x2 + x3 Estimated Coefficients: Estimate SE tStat pValue __________ _________ _________ __________ (Intercept) 47.977 3.8785 12.37 4.8957e-21 x1 -0.0065416 0.0011274 -5.8023 9.8742e-08 x2 -0.042943 0.024313 -1.7663 0.08078 x3 -0.011583 0.19333 -0.059913 0.95236 Number of observations: 93, Error degrees of freedom: 89 Root Mean Squared Error: 4.09 R-squared: 0.752, Adjusted R-Squared: 0.744 F-statistic vs. constant model: 90, p-value = 7.38e-27
La visualización del modelo incluye la fórmula del modelo, los coeficientes estimados y las estadísticas de resumen del modelo.
La fórmula del modelo en la pantalla, , corresponde ay ~ 1 + x1 + x2 + x3
La visualización del modelo muestra la información de coeficiente estimado, que se almacena en la propiedad.Coefficients
Muestre la propiedad.Coefficients
lm.Coefficients
ans=4×4 table
Estimate SE tStat pValue
__________ _________ _________ __________
(Intercept) 47.977 3.8785 12.37 4.8957e-21
x1 -0.0065416 0.0011274 -5.8023 9.8742e-08
x2 -0.042943 0.024313 -1.7663 0.08078
x3 -0.011583 0.19333 -0.059913 0.95236
La propiedad incluye estas columnas:Coefficient
— Estimaciones de coeficiente para cada término correspondiente en el modelo.Estimate
Por ejemplo, la estimación del término constante ( ) es 47.977.intercept
— Error estándar de los coeficientes.SE
— -estadística para cada coeficiente para probar la hipótesis nula de que el coeficiente correspondiente es cero con respecto a la alternativa de que es diferente de cero, dados los otros predictores en el modelo.tStat
t Tenga en cuenta que .tStat = Estimate/SE
Por ejemplo, la estadística para la interceptación es 47.977/3.8785 a 12,37.t
— -valor para la estadística de la prueba de hipótesis de que el coeficiente correspondiente es igual a cero o no.pValue
pt Por ejemplo, el valor -value de la -statistic para es mayor que 0.05, por lo que este término no es significativo en el nivel de significancia del 5% dados los otros términos en el modelo.ptx2
Las estadísticas resumidos del modelo son:
— Número de filas sin valores.Number of observations
NaN
Por ejemplo, es 93 porque el vector de datos tiene seis valores y el vector de datos tiene un valor para una observación diferente, donde el número de filas en y es 100.Number of observations
MPG
NaN
Horsepower
NaN
X
MPG
— – , donde está el número de observaciones y está el número de coeficientes en el modelo, incluida la interceptación.Error degrees of freedom
n pnp Por ejemplo, el modelo tiene cuatro predictores, por lo que el es 93 – 4 x 89.Error degrees of freedom
— Raíz cuadrada del error cuadrado medio, que estima la desviación estándar de la distribución del error.Root mean squared error
y — Coeficiente de determinación y coeficiente de determinación ajustado, respectivamente.R-squared
Adjusted R-squared
Por ejemplo, el valor sugiere que el modelo explica aproximadamente el 75% de la variabilidad en la variable de respuesta.R-squared
MPG
— Estadística de prueba para la prueba -test en el modelo de regresión, que comprueba si el modelo se ajusta significativamente mejor que un modelo degenerado que consiste en sólo un término constante.F-statistic vs. constant model
F
— -value para la prueba en el modelo.p-value
pF Por ejemplo, el modelo es significativo con un valor de 7.3816e-27.p
Realizar análisis de varianza (ANOVA) para el modelo.
anova(lm,'summary')
ans=3×5 table
SumSq DF MeanSq F pValue
______ __ ______ ______ __________
Total 6004.8 92 65.269
Model 4516 3 1505.3 89.987 7.3816e-27
Residual 1488.8 89 16.728
Esta pantalla muestra lo siguiente.anova
— Suma de cuadrados para el modelo de regresión, , el término de error, , y el total, .SumSq
Model
Residual
Total
— Grados de libertad para cada término.DF
Grados de libertad es MPG
NaN
Horsepower
NaN
Hay cuatro coeficientes en el modelo, por lo que el modelo es 4 – 1 a 3, y el término de error for es 93 – 4 a 89.DF
DF
— Error medio cuadrado para cada término.MeanSq
Tenga en cuenta que .MeanSq = SumSq/DF
Por ejemplo, el error cuadrado medio para el término de error es 1488.8/89 a 16.728. La raíz cuadrada de este valor es la visualización de regresión lineal en la visualización lineal, o 4.09.root mean squared error
— -valor estadístico, que es el mismo que en la visualización de regresión lineal.F
FF-statistic vs. constant model
En este ejemplo, es 89.987, y en la visualización de regresión lineal este valor -statistic se redondea hasta 90.F
— -value para la prueba en el modelo.pValue
pF En este ejemplo, es 7.3816e-27.
Si hay términos de orden superior en el modelo de regresión, divide el modelo en la pieza explicada por los términos de orden superior y el resto.anova
SumSq
Las estadísticas correspondientes son para probar la importancia de los términos lineales y los términos de orden superior como grupos separados.F
Si los datos incluyen réplicas o varias mediciones en los mismos valores predictores, las particiones del error en la pieza para las réplicas y el resto.anova
SumSq
La estadística correspondiente es para probar la falta de ajuste comparando los residuos del modelo con la estimación de varianza sin modelo calculada en las réplicas.F
Descomponga la tabla ANOVA para los términos del modelo.
anova(lm)
ans=4×5 table
SumSq DF MeanSq F pValue
________ __ ________ _________ __________
x1 563.18 1 563.18 33.667 9.8742e-08
x2 52.187 1 52.187 3.1197 0.08078
x3 0.060046 1 0.060046 0.0035895 0.95236
Error 1488.8 89 16.728
Esta pantalla muestra lo siguiente:anova
Primera columna: términos incluidos en el modelo.
— Suma de error al cuadrado para cada término, excepto para la constante.SumSq
— Grados de libertad.DF
En este ejemplo, es 1 para cada término del modelo yDF
DF
Si alguna de las variables del modelo es una variable categórica, la variable para esa es el número de variables de indicador creadas para sus categorías (número de categorías – 1).DF
— Error medio cuadrado para cada término.MeanSq
Tenga en cuenta que .MeanSq = SumSq/DF
Por ejemplo, el error cuadrado medio para el término de error es 1488.8/89 a 16.728.
— -valores para cada coeficiente.F
F El valor -es la relación entre la media al cuadrado de cada término y el error cuadrado medio, es decir, .FF = MeanSq(xi)/MeanSq(Error)
Cada -estadística tiene una distribución, con los grados de libertad numerador, el valor para el término correspondiente, y los grados de libertad denominador,FFDF
— -valor para cada prueba de hipótesis sobre el coeficiente del término correspondiente en el modelo lineal.pValue
p Por ejemplo, el valor -para el coeficiente -statistic de es 0.08078, y no es significativo en el nivel de significancia del 5% dados los otros términos en el modelo.pFx2
Mostrar intervalos de confianza de coeficiente.
coefCI(lm)
ans = 4×2
40.2702 55.6833
-0.0088 -0.0043
-0.0913 0.0054
-0.3957 0.3726
Los valores de cada fila son los límites de confianza inferior y superior, respectivamente, para los intervalos de confianza predeterminados del 95% para los coeficientes. Por ejemplo, la primera fila muestra los límites inferior y superior, 40.2702 y 55.6833, para la interceptación,
También puede cambiar el nivel de confianza. Encuentre los intervalos de confianza del 99% para los coeficientes.
coefCI(lm,0.01)
ans = 4×2
37.7677 58.1858
-0.0095 -0.0036
-0.1069 0.0211
-0.5205 0.4973
Pruebe la hipótesis nula de que todos los coeficientes variables predictores son iguales a cero frente a la hipótesis alternativa de que al menos uno de ellos es diferente de cero.
[p,F,d] = coefTest(lm)
p = 7.3816e-27
F = 89.9874
d = 3
Aquí, realiza una prueba para la hipótesis de que todos los coeficientes de regresión (excepto la interceptación) son cero frente a al menos uno difiere de cero, que es esencialmente la hipótesis en el modelo.coefTest
F Vuelve F
Fd
El valor -statistic y -son los mismos que los de la visualización de regresión lineal y para el modelo.Fpanova
Los grados de libertad son de 4 – 1 a 3 porque hay cuatro predictores (incluyendo la interceptación) en el modelo.
Ahora, realice una prueba de hipótesis sobre los coeficientes de la primera y segunda variables predictoras.
H = [0 1 0 0; 0 0 1 0]; [p,F,d] = coefTest(lm,H)
p = 5.1702e-23
F = 96.4873
d = 2
Los grados de libertad del numerador es el número de coeficientes probados, que es 2 en este ejemplo. Los resultados indican que al menos uno de los
anova
| fitlm
| LinearModel
| stepwiselm