Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Estadísticas de remuestreo

Bootstrap remuestreo

El procedimiento de arranque implica la elección de muestras aleatorias con el reemplazo de un conjunto de datos y el análisis de cada muestra de la misma manera. El muestreo con sustitución significa que cada observación se selecciona por separado al azar del DataSet original. Por lo tanto, un punto de datos determinado del conjunto de datos original podría aparecer varias veces en una muestra de arranque determinada. El número de elementos de cada ejemplo de arranque es igual al número de elementos del conjunto de datos original. La gama de estimaciones de muestras que obtiene le permite establecer la incertidumbre de la cantidad que está calculó.

Este ejemplo de Efron y Tibshirani compara las puntuaciones de la prueba de admisión de la escuela de derecho (LSAT) y el promedio de grado de la escuela de derecho (GPA) para una muestra de 15 escuelas de derecho.

load lawdata plot(lsat,gpa,'+') lsline

La línea de ajuste de mínimos cuadrados indica que las puntuaciones LSAT más altas van con las GPAs de la escuela de derecho superior. Pero, ¿cuán segura es esta conclusión? La trama proporciona algo de intuición, pero nada cuantitativo.

Puede calcular el coeficiente de correlación de las variables utilizando el | Corr | función.

rhohat = corr(lsat,gpa)
rhohat = 0.7764 

Ahora tiene un número que describe la conexión positiva entre LSAT y GPA; Aunque puede parecer grande, usted todavía no sabe si es estadísticamente significativo.

El uso de la función puede volver a muestrear los vectores y tantas veces como quiera y considerar la variación en los coeficientes de correlación resultantes.bootstrplsatgpa

rng default  % For reproducibility rhos1000 = bootstrp(1000,'corr',lsat,gpa);

Esto vuelve a muestrear los vectores y 1000 veces y calcula la función en cada muestra.lsatgpacorr A continuación, puede trazar el resultado en un histograma.

histogram(rhos1000,30,'FaceColor',[.8 .8 1])

Casi todas las estimaciones se encuentran en el intervalo [0,4 1,0].

A menudo es deseable construir un intervalo de confianza para una estimación de parámetros en inferencias estadísticas. Utilizando la función, puede utilizar bootstrapping para obtener un intervalo de confianza para los datos y.bootcilsatgpa

ci = bootci(5000,@corr,lsat,gpa)
ci = 2×1

    0.3319
    0.9427

Por lo tanto, un intervalo de confianza del 95% para el coeficiente de correlación entre LSAT y GPA es [0,33 0,94]. Esta es una fuerte evidencia cuantitativa de que LSAT y el GPA posterior están positivamente correlacionados. Además, esta evidencia no requiere ninguna suposición fuerte sobre la distribución de probabilidad del coeficiente de correlación.

Aunque la función calcula el intervalo de corrección de sesgo y acelerado (BCA) como el tipo predeterminado, también puede calcular varios otros tipos de intervalos de confianza de arranque, como el intervalo de confianza de arranque con estudentizado.bootci

El Resampling de Jackknife

Similar al bootstrap es el Jackknife, que utiliza el remuestreo para estimar el sesgo de un estadístico de muestra. A veces también se utiliza para estimar el error estándar de la estadística de muestra. El Jackknife es implementado por la función de estadísticas y machine learning Toolbox™.jackknife

La navaja se remuestrea sistemáticamente, en lugar de al azar como lo hace el bootstrap. Para una muestra con puntos, el Jackknife calcula las estadísticas de la muestra en muestras separadas del tamaño-1.nnn Cada muestra es los datos originales con una sola observación omitida.

En el ejemplo de bootstrap, se mide la incertidumbre en la estimación del coeficiente de correlación. Puede utilizar la navaja para estimar el sesgo, que es la tendencia de la correlación de muestra a sobreestimar o subestimar la correlación verdadera y desconocida. Primero calcule la correlación de ejemplo en los datos.

load lawdata rhohat = corr(lsat,gpa)
rhohat = 0.7764 

A continuación, calcule las correlaciones para las muestras de Jackknife y calcule su media.

rng default;  % For reproducibility jackrho = jackknife(@corr,lsat,gpa); meanrho = mean(jackrho)
meanrho = 0.7759 

Ahora calcule una estimación del sesgo.

n = length(lsat); biasrho = (n-1) * (meanrho-rhohat)
biasrho = -0.0065 

La correlación de muestra probablemente subestima la correlación verdadera en esta cantidad.

Soporte informático paralelo para métodos de remuestreo

Para obtener información sobre cómo calcular las estadísticas de remuestreo en paralelo, consulte.Parallel Computing Toolbox™