Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.
En la regresión lineal, la estadística F es la estadística de prueba para el enfoque de análisis de varianza (ANOVA) para probar la importancia del modelo o los componentes en el modelo.
La estadística F en la visualización de salida del modelo lineal es la estadística de prueba para probar la significancia estadística del modelo. Los valores estadísticos F en la pantalla son para evaluar la importancia de los términos o componentes en el modelo.anova
Después de obtener un modelo ajustado, por ejemplo, , utilizando o , puede:mdl
fitlm
stepwiselm
Busque el en la pantalla de salida o utilizandoF-statistic vs. constant model
disp(mdl)
Visualice el ANOVA para el modelo utilizando
anova(mdl,'summary')
Obtenga los valores de estadística F para los componentes, excepto para el término constante mediante For details, consulte el método de la clase.
anova(mdl)
anova
LinearModel
Este ejemplo muestra cómo evaluar el ajuste del modelo y la importancia de los coeficientes de regresión utilizando la estadística F.
Cargue los datos de ejemplo.
load hospital tbl = table(hospital.Age,hospital.Weight,hospital.Smoker,hospital.BloodPressure(:,1), ... 'VariableNames',{'Age','Weight','Smoker','BloodPressure'}); tbl.Smoker = categorical(tbl.Smoker);
Ajuste un modelo de regresión lineal.
mdl = fitlm(tbl,'BloodPressure ~ Age*Weight + Smoker + Weight^2')
mdl = Linear regression model: BloodPressure ~ 1 + Smoker + Age*Weight + Weight^2 Estimated Coefficients: Estimate SE tStat pValue __________ _________ ________ __________ (Intercept) 168.02 27.694 6.067 2.7149e-08 Age 0.079569 0.39861 0.19962 0.84221 Weight -0.69041 0.3435 -2.0099 0.047305 Smoker_true 9.8027 1.0256 9.5584 1.5969e-15 Age:Weight 0.00021796 0.0025258 0.086294 0.93142 Weight^2 0.0021877 0.0011037 1.9822 0.050375 Number of observations: 100, Error degrees of freedom: 94 Root Mean Squared Error: 4.73 R-squared: 0.528, Adjusted R-Squared: 0.503 F-statistic vs. constant model: 21, p-value = 4.81e-14
La estadística F del ajuste lineal frente al modelo constante es 21, con un valor de 4.81e-14.p El modelo es significativo en el nivel de significancia del 5%. El valor R cuadrado de 0,528 significa que el modelo explica aproximadamente el 53% de la variabilidad en la respuesta. Puede haber otras variables predictoras (explicativas) que no se incluyen en el modelo actual.
Visualice la tabla ANOVA para el modelo ajustado.
anova(mdl,'summary')
ans=5×5 table
SumSq DF MeanSq F pValue
______ __ ______ ______ __________
Total 4461.2 99 45.062
Model 2354.5 5 470.9 21.012 4.8099e-14
. Linear 2263.3 3 754.42 33.663 7.2417e-15
. Nonlinear 91.248 2 45.624 2.0358 0.1363
Residual 2106.6 94 22.411
Esta visualización separa la variabilidad del modelo en términos lineales y no lineales. Puesto que hay dos términos no lineales ( y la interacción entre y ), los grados no lineales de libertad en la columna es 2.Weight^2
Weight
Age
DF
Hay tres términos lineales en el modelo (una variable de indicador, , y ).Smoker
Weight
Age
Las estadísticas F correspondientes en la columna son para probar la importancia de los términos lineales y no lineales como grupos separados.F
Cuando hay observaciones replicadas, el término residual también se separa en dos partes; el primero es el error debido a la falta de ajuste, y el segundo es el error puro independiente del modelo, obtenido de las observaciones replicadas. En ese caso, la estadística F es para probar la falta de ajuste, es decir, si el ajuste es adecuado o no. Pero, en este ejemplo, no hay observaciones replicadas.
Visualice la tabla ANOVA para los términos del modelo.
anova(mdl)
ans=6×5 table
SumSq DF MeanSq F pValue
________ __ ________ _________ __________
Age 62.991 1 62.991 2.8107 0.096959
Weight 0.064104 1 0.064104 0.0028604 0.95746
Smoker 2047.5 1 2047.5 91.363 1.5969e-15
Age:Weight 0.16689 1 0.16689 0.0074466 0.93142
Weight^2 88.057 1 88.057 3.9292 0.050375
Error 2106.6 94 22.411
Esta pantalla descompone la tabla ANOVA en los términos del modelo. Las estadísticas F correspondientes de la columna evalúan la significancia estadística de cada término.F
Por ejemplo, la prueba F para las pruebas si el coeficiente de la variable de indicador para es diferente de cero.Smoker
Smoker
Es decir, la prueba F determina si ser fumador tiene un efecto significativo en .BloodPressure
Los grados de libertad para cada término del modelo son los grados de libertad del numerador para la prueba F correspondiente. Todos los términos tienen un grado de libertad. En el caso de una variable categórica, los grados de libertad es el número de variables indicadoras. tiene sólo una variable indicadora, por lo que también tiene un grado de libertad.Smoker
En la regresión lineal, la estadística -es útil para realizar inferencias sobre los coeficientes de regresión.t La prueba de hipótesis en las pruebas de coeficiente según la hipótesis de que es igual a cero, lo que significa que el término correspondiente no es significativo, frente a la hipótesis alternativa de que el coeficiente es diferente de cero.i
Para una prueba de hipótesis en el coeficiente, coni
H0 : βi 0
H1 : βi 0,
la estadística es:t
donde (SEbi) es el error estándar del coeficiente estimadobi.
Después de obtener un modelo ajustado, por ejemplo, , utilizando o , puede:mdl
fitlm
stepwiselm
Encuentre las estimaciones del coeficiente, los errores estándar de las estimaciones ( ) y los valores estadísticos de las pruebas de hipótesis para los coeficientes correspondientes ( ) en la visualización de salida.SE
ttStat
Llame para la pantalla usando
display(mdl)
Este ejemplo muestra cómo probar la importancia de los coeficientes de regresión usando la estadística t.
Cargue los datos de muestra y ajuste el modelo de regresión lineal.
load hald mdl = fitlm(ingredients,heat)
mdl = Linear regression model: y ~ 1 + x1 + x2 + x3 + x4 Estimated Coefficients: Estimate SE tStat pValue ________ _______ ________ ________ (Intercept) 62.405 70.071 0.8906 0.39913 x1 1.5511 0.74477 2.0827 0.070822 x2 0.51017 0.72379 0.70486 0.5009 x3 0.10191 0.75471 0.13503 0.89592 x4 -0.14406 0.70905 -0.20317 0.84407 Number of observations: 13, Error degrees of freedom: 8 Root Mean Squared Error: 2.45 R-squared: 0.982, Adjusted R-Squared: 0.974 F-statistic vs. constant model: 111, p-value = 4.76e-07
Puede ver que para cada coeficiente, .tStat = Estimate/SE
el pValue
Cada
Utilice la regresión escalonada para decidir qué variables incluir en el modelo.
load hald mdl = stepwiselm(ingredients,heat)
1. Adding x4, FStat = 22.7985, pValue = 0.000576232 2. Adding x1, FStat = 108.2239, pValue = 1.105281e-06
mdl = Linear regression model: y ~ 1 + x1 + x4 Estimated Coefficients: Estimate SE tStat pValue ________ ________ _______ __________ (Intercept) 103.1 2.124 48.54 3.3243e-13 x1 1.44 0.13842 10.403 1.1053e-06 x4 -0.61395 0.048645 -12.621 1.8149e-07 Number of observations: 13, Error degrees of freedom: 10 Root Mean Squared Error: 2.73 R-squared: 0.972, Adjusted R-Squared: 0.967 F-statistic vs. constant model: 177, p-value = 1.58e-08
En este ejemplo, comienza con el modelo constante (predeterminado) y utiliza la selección directa para agregar y .stepwiselm
x4
x1
Cada variable predictora en el modelo final es significativa dado que la otra está en el modelo. El algoritmo se detiene al agregar ninguna de las otras variables predictoras mejora significativamente en el modelo. Para obtener más información sobre la regresión escalonada, consulte .stepwiselm
anova
| coefCI
| coefTest
| fitlm
| LinearModel
| stepwiselm