Análisis de componentes principales (PCA)

Una de las dificultades inherentes a la estadística multivariada es el problema de visualizar datos con un gran número de variables. La función plot muestra una gráfica de la relación entre dos variables. Los comandos plot3 y surf muestran vistas tridimensionales diferentes. Sin embargo, cuando hay más de tres variables, es más difícil visualizar sus relaciones.

Afortunadamente, en los conjuntos de datos con un gran número de variables, los grupos de variables suelen moverse a la vez. Una de las razones por las que se hace esto es que es posible que haya más de una variable midiendo el mismo principio motor que rige el comportamiento del sistema. En muchos sistemas hay únicamente un número reducido de estas fuerzas motoras. Sin embargo, la gran cantidad de instrumentación permite medir docenas de variables de sistema. Cuando esto sucede, puede sacar partido de esta redundancia de información. Puede simplificar el problema sustituyendo un grupo de variables por una nueva variable única.

El análisis de componentes principales es un método riguroso desde el punto de vista cuantitativo para realizar esta simplificación. El método genera un nuevo conjunto de variables, llamadas componentes principales. Cada componente principal es una combinación lineal de las variables originales. Todos los componentes principales son ortogonales entre sí, por lo que no hay información redundante. El conjunto de los componentes principales forma una base ortogonal para el espacio de los datos.

Hay un número infinito de formas de construir una base ortogonal para varias columnas de datos. ¿Por qué la base de componentes principales es tan especial?

El primer componente principal es un eje único en el espacio. Cuando proyecta cada observación en ese eje, los valores resultantes forman una nueva variable. La varianza de esta variable es la máxima entre todas las opciones posibles del primer eje.

El segundo componente principal es otro eje en el espacio, perpendicular al primero. Proyectar las observaciones en este eje genera otra nueva variable. La varianza de esta variable es la máxima entre todas las opciones posibles de este segundo eje.

La totalidad del conjunto de los componentes principales tiene el mismo tamaño que el conjunto original de variables. No obstante, es habitual que la suma de las varianzas de los primeros componentes principales supere el 80% de la varianza total de los datos originales. Examinando las gráficas de este número reducido de nuevas variables, los investigadores suelen desarrollar su comprensión de las fuerzas motoras que generaron los datos originales.

Puede usar la función pca para encontrar los componentes principales. Para usar pca, debe disponer de los datos reales medidos que desea analizar. Sin embargo, si no dispone de los datos reales, pero tiene la covarianza de muestra o la matriz de correlación de los datos, aún puede usar la función pcacov para realizar un análisis de componentes principales. Consulte la página de referencia de pcacov para obtener una descripción de sus entradas y salidas.

Cuando necesite procesar datos de entrada de un flujo de datos, puede realizar el PCA incremental creando un objeto de modelo de PCA incremental utilizando la función incrementalPCA. Al crear el objeto de modelo, puede especificar un modelo predeterminado o especificar los coeficientes y varianzas iniciales de los componentes principales. La función fit ajusta el modelo a un fragmento de datos entrantes y almacena las propiedades del PCA actualizadas en el modelo de salida. Después de calentar el modelo, la función fit puede devolver, opcionalmente, las puntuaciones de los componentes principales. La función transform acepta un fragmento de datos entrantes y lo transforma utilizando el modelo de PCA incremental.

Consulte también

pca | pcacov | pcares | ppca | incrementalPCA

Temas

Analyze Quality of Life in US Cities Using PCA