Capítulo 3

Aplicación del aprendizaje no supervisado


Cuándo utilizar aprendizaje no supervisado

El aprendizaje no supervisado resulta útil si desea explorar los datos pero aún no tiene un objetivo específico o no sabe a ciencia cierta qué información contienen los datos. También es un buen modo de reducir las dimensiones de los datos.

La mayoría de las técnicas de aprendizaje no supervisado son básicamente una forma de análisis de clusters, como vimos en el capítulo 1.

En el análisis de clusters, los datos se dividen en grupos según un grado de confianza o pertenencia. Los clusters se forman de modo que los objetos en un mismo cluster tienen características muy similares, y los objetos en diferentes clusters tienen características totalmente distintas.

Los algoritmos de agrupación en clusters se dividen en dos grupos principales:

  • Agrupación en clusters dura, donde cada punto de datos pertenece a un solo cluster.
  • Agrupación en clusters blanda, donde cada punto de datos puede pertenecer a más de un cluster. Puede utilizar técnicas de agrupación dura o blanda si ya conoce las posibles agrupaciones de datos.
Gráfica de un modelo de clusters empleando la técnica gaussiana

Modelo de mezcla gaussiana utilizado para separar datos en dos clusters.

Si no sabe cómo podrían agruparse los datos:

  • Utilice mapas de características autoorganizados o agrupación jerárquica para encontrar posibles estructuras en los datos.
  • Utilice evaluación de clusters para hallar el “mejor” número de grupos para un determinado algoritmo de agrupación en clusters.

Algoritmos de agrupación dura comunes

Algoritmos de agrupación blanda comunes