Capítulo 2

Iníciese en Machine Learning


Rara vez es lineal

El proceso de Machine Learning no suele ser una recta de principio a fin; consiste en realizar iteraciones constantemente, y probar diferentes ideas y enfoques. Esta sección describe un flujo de trabajo sistemático de Machine Learning y destaca algunos puntos de decisión clave durante el proceso.

Los conjuntos de datos del mundo real pueden ser confusos e incompletos, y tener diversos formatos. A veces, los datos son simples números. Otras veces, deberá combinar varios tipos de datos, como señales de sensores, texto e imágenes transmitidas desde una cámara.

Por ejemplo, seleccionar características para entrenar un algoritmo de detección de objetos requiere conocimiento especializado en procesamiento de imágenes. Los distintos tipos de datos necesitan diferentes enfoques de preprocesamiento.

Seleccionar el modelo adecuado es una cuestión de equilibrio. Los modelos sumamente flexibles tienden a sobreajustar los datos, ya que modelan variaciones menores que pueden considerarse ruido. Por otro lado, los modelos simples a veces presuponen demasiadas cosas. Siempre existen tradeoffs entre velocidad, precisión y complejidad en un modelo.

Cada flujo de trabajo de Machine Learning comienza con tres preguntas:

  • ¿Con qué tipo de datos va a trabajar?
  • ¿Qué información desea obtener de ellos?
  • ¿Cómo y dónde se aplicará esa información?

Las respuestas a estas preguntas ayudarán a decidir si conviene utilizar aprendizaje supervisado o no supervisado.

Seleccione el aprendizaje supervisado si necesita entrenar un modelo para realizar una predicción. Por ejemplo, el valor futuro de una variable continua, como grados de temperatura o cotización de acciones, o bien una clasificación, como identificar marcas de automóviles en un vídeo.

Seleccione el aprendizaje no supervisado si necesita explorar datos y desea entrenar un modelo para obtener una representación interna; por ejemplo, dividir datos en clusters.

Resumen del flujo de trabajo

Descargue el PDF completo para ver los pasos con más detalle, utilizando como ejemplo una app de monitorización de la salud. El flujo de trabajo completo se realiza en MATLAB®.

  1. ACCEDA y cargue los datos
  2. PREPROCESE los datos
  3. EXTRAIGA características utilizando los datos preprocesados
  4. ENTRENE modelos con las características extraídas en el paso 3
  5. REALICE ITERACIONES para identificar el mejor modelo
  6. INTEGRE el modelo mejor entrenado en un sistema de producción