Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Introducción al análisis de clústeres

, también llamado o, crea grupos o, de datos.El análisis de clústeresAnálisis de segmentaciónAnálisis de taxonomíaclusters Los clústeres se forman de tal forma que los objetos del mismo clúster son similares y los objetos de distintos clústeres son distintos. Las medidas de similitud dependen de la aplicación.

agrupa los datos en una variedad de escalas creando un árbol de clústeres o.Clustering jerárquicoDendrograma El árbol no es un solo conjunto de clústeres, sino más bien una jerarquía multinivel, donde los clústeres de un nivel se unen como clústeres en el siguiente nivel. Esto le permite decidir el nivel o la escala de agrupación en clústeres que es más adecuado para la aplicación. La función realiza todos los pasos necesarios para usted.Statistics and Machine Learning Toolbox™clusterdata Incorpora las funciones, que pueden utilizarse por separado para un análisis más detallado.pdistlinkagecluster La función traza el árbol del clúster.Dendrograma

es un método de particionamiento.-Significa clusteringk La función divide los datos en clústeres mutuamente excluyentes y devuelve el índice del clúster al que ha asignado cada observación.kmeansk A diferencia de clustering jerárquico,-significa clustering opera en observaciones reales (en lugar del conjunto más grande de medidas de dessimilitud), y crea un único nivel de clústeres.k Las distinciones significan que la agrupación en clústeres suele ser más adecuada que la agrupación jerárquica para grandes cantidades de datos.k

es un algoritmo basado en la densidad que identifica clústeres con forma arbitraria y valores atípicos (ruido) en los datos.DBSCAN La función realiza clustering en una matriz de datos de entrada o en distancias en parejas entre observaciones. Devuelve los índices del clúster y un vector que indica las observaciones que son puntos principales, que son puntos que tienen al menos un número mínimo de vecinos () en su vecindad Epsilon ().dbscandbscanminptsepsilon A diferencia de la agrupación en clústeres, el algoritmo DBSCAN no requiere conocimientos previos del número de clústeres y los clústeres no son necesariamente esferoidal.k DBSCAN también es útil para la detección de valores atípicos basados en la densidad, ya que identifica puntos que no pertenecen a ningún clúster.

formar clústeres representando la función de densidad de probabilidad de las variables observadas como una mezcla de densidades normales multivariadas.Cluster utilizando modelos de mezcla gaussiana Los modelos de mezcla de la clase utilizan ungmdistribution algoritmo de maximización de expectativas (EM) para ajustar los datos, lo que asigna probabilidades posteriores a cada densidad de componentes con respecto a cada observación. Los clústeres se asignan seleccionando el componente que maximiza la probabilidad posterior. La agrupación en clústeres con modelos de mezcla gaussiana a veces se considera un método de clustering suave. Las probabilidades posteriores de cada punto indican que cada punto de datos tiene cierta probabilidad de pertenecer a cada clúster. Como-significa clustering, el modelado de mezclas gaussiana utiliza un algoritmo iterativo que converge a un óptimo local.k El modelado de mezclas gaussiana puede ser más apropiado que la agrupación en clústeres cuando los clústeres tienen diferentes tamaños y correlaciones dentro de ellos.k

Temas relacionados