Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Análisis de componentes principales (PCA)

Una de las dificultades inherentes a las Estadísticas multivariadas es el problema de visualizar datos que tienen muchas variables. La función muestra un gráfico de la relación entre dos variables.MATLAB®plot Los comandos y muestran diferentes vistas tridimensionales.plot3surf Pero cuando hay más de tres variables, es más difícil visualizar sus relaciones.

Afortunadamente, en conjuntos de datos con muchas variables, grupos de variables a menudo se mueven juntos. Una razón para esto es que más de una variable podría estar midiendo el mismo principio de conducción que rige el comportamiento del sistema. En muchos sistemas hay sólo unos pocos tales fuerzas de conducción. Pero una gran cantidad de instrumentación le permite medir docenas de variables del sistema. Cuando esto sucede, usted puede aprovecharse de esta redundancia de la información. Puede simplificar el problema reemplazando un grupo de variables con una única variable nueva.

El análisis de componentes principales es un método cuantificativamente riguroso para lograr esta simplificación. El método genera un nuevo conjunto de variables, llamado.principal components Cada componente principal es una combinación lineal de las variables originales. Todos los componentes principales son ortogonales entre sí, por lo que no hay información redundante. Los componentes principales en su conjunto forman una base ortogonal para el espacio de los datos.

Hay un número infinito de formas de construir una base ortogonal para varias columnas de datos. ¿Qué tiene de especial la base del componente principal?

El primer componente principal es un único eje en el espacio. Al proyectar cada observación en ese eje, los valores resultantes forman una nueva variable. Y la varianza de esta variable es el máximo entre todas las opciones posibles del primer eje.

El segundo componente principal es otro eje en el espacio, perpendicular al primero. La proyección de las observaciones en este eje genera otra nueva variable. La varianza de esta variable es el máximo entre todas las opciones posibles de este segundo eje.

El conjunto completo de componentes principales es tan grande como el conjunto original de variables. Pero es común que la suma de las varianzas de los primeros componentes principales supere el 80% de la varianza total de los datos originales. Examinando las parcelas de estas pocas variables nuevas, los investigadores a menudo desarrollan una comprensión más profunda de las fuerzas impulsoras que generaron los datos originales.

Puede utilizar la función para buscar los componentes principales.pca Para usar, debe tener los datos medidos reales que desea analizar.pca Sin embargo, si carecen de los datos reales, pero tienen la covarianza de muestra o la matriz de correlación para los datos, todavía puede utilizar la función para realizar un análisis de componentes principales.pcacov Consulte la página de referencia para obtener una descripción de sus entradas y salidas.pcacov

Consulte también

| | |

Temas relacionados