Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Análisis de componentes principales (PCA)

Una de las dificultades inherentes a las estadísticas multivariadas es el problema de visualizar datos que tienen muchas variables. La función muestra un gráfico de la relación entre dos variables.MATLAB®plot Los comandos y muestran diferentes vistas tridimensionales.plot3surf Pero cuando hay más de tres variables, es más difícil visualizar sus relaciones.

Afortunadamente, en conjuntos de datos con muchas variables, los grupos de variables a menudo se mueven juntos. Una razón para esto es que más de una variable podría estar midiendo el mismo principio de conducción que rige el comportamiento del sistema. En muchos sistemas sólo hay unas pocas fuerzas motrices de este tipo. Pero una abundancia de instrumentación le permite medir docenas de variables del sistema. Cuando esto sucede, usted puede tomar ventaja de esta redundancia de la información. Puede simplificar el problema reemplazando un grupo de variables por una sola variable nueva.

El análisis de componentes principales es un método cuantitativamente riguroso para lograr esta simplificación. El método genera un nuevo conjunto de variables, denominadas .componentes principales Cada componente principal es una combinación lineal de las variables originales. Todos los componentes principales son ortogonales entre sí, por lo que no hay información redundante. Los componentes principales en su conjunto forman una base ortogonal para el espacio de los datos.

Hay un número infinito de formas de construir una base ortogonal para varias columnas de datos. ¿Qué tiene de especial la base del componente principal?

El primer componente principal es un único eje en el espacio. Al proyectar cada observación en ese eje, los valores resultantes forman una nueva variable. Y la varianza de esta variable es el máximo entre todas las opciones posibles del primer eje.

El segundo componente principal es otro eje en el espacio, perpendicular al primero. Proyectar las observaciones en este eje genera otra nueva variable. La varianza de esta variable es la máxima entre todas las opciones posibles de este segundo eje.

El conjunto completo de componentes principales es tan grande como el conjunto original de variables. Pero es común que la suma de las varianzas de los primeros componentes principales supere el 80% de la varianza total de los datos originales. Al examinar las tramas de estas pocas variables nuevas, los investigadores a menudo desarrollan una comprensión más profunda de las fuerzas motrices que generaron los datos originales.

Puede utilizar la función para buscar los componentes principales.pca Para utilizar , debe tener los datos medidos reales que desea analizar.pca Sin embargo, si carece de los datos reales, pero tiene la corvariancia o matriz de correlación de ejemplo para los datos, todavía puede utilizar la función para realizar un análisis de componentes principales.pcacov Consulte la página de referencia para obtener una descripción de sus entradas y salidas.pcacov

Consulte también

| | |

Temas relacionados