Capítulo 1

Introducción a Machine Learning


Más datos, más preguntas, mejores respuestas

Los algoritmos de Machine Learning identifican patrones naturales en los datos, que generan conocimiento, ayudan a tomar mejores decisiones y realizar predicciones más acertadas. Se utilizan a diario para tomar decisiones cruciales en diagnósticos médicos, inversiones, predicción de carga energética y otros ámbitos. Las plataformas de streaming dependen de Machine Learning para filtrar millones de opciones y ofrecer recomendaciones sobre canciones o vídeos. Los comerciantes lo utilizan para obtener información sobre el comportamiento de compra de sus clientes.

Automoción y fabricación, para mantenimiento predictivo

Finanzas computacionales, para puntuación crediticia y trading algorítmico

Procesamiento de imágenes y visión artificial, para reconocimiento facial y detección de objetos

Biología computacional, para detección de tumores, descubrimiento de fármacos y secuenciación de ADN

Producción de energía, para predicción de carga y tarifas

Procesamiento del lenguaje natural

Aplicaciones del mundo real:

Duración del vídeo 3:51

Cómo funciona Machine Learning

Machine Learning emplea dos tipos de técnicas: aprendizaje supervisado, que entrena un modelo con datos de entrada y salida conocidos para predecir salidas futuras, y aprendizaje no supervisado, que identifica patrones ocultos o estructuras intrínsecas en los datos de entrada.

Técnicas de clasificación: Estas técnicas predicen respuestas discretas; por ejemplo, si un email es genuino o spam, o si un tumor es maligno o benigno. Los modelos de clasificación clasifican los datos de entrada en categorías. Entre sus aplicaciones típicas se incluyen captura de imágenes médicas, reconocimiento del habla y puntuación crediticia.

Las técnicas de regresión predicen respuestas continuas; por ejemplo, cambios de temperatura o fluctuaciones en el consumo de electricidad. Entre sus aplicaciones típicas se incluyen predicción de carga eléctrica y trading algorítmico.

El aprendizaje no supervisado identifica patrones ocultos o estructuras intrínsecas en los datos. Se emplea para sacar conclusiones sobre conjuntos de datos de entrada sin respuestas etiquetadas.

La agrupación en clusters es la técnica de aprendizaje no supervisado más común. Se emplea para análisis exploratorio de datos, a fin de identificar patrones o grupos ocultos en los datos.

Entre sus aplicaciones se incluyen análisis de secuencias genéticas, estudios de mercado y reconocimiento de objetos.

Cómo seleccionar el algoritmo adecuado

Seleccionar el algoritmo adecuado puede resultar abrumador: existen infinidad de algoritmos de Machine Learning supervisado y no supervisado, y cada uno adopta un enfoque de aprendizaje distinto. No existe un mejor método universal aplicable a todas las situaciones. Encontrar el algoritmo adecuado es una cuestión de ensayo y error; ni los analistas de datos más experimentados pueden saber si un determinado algoritmo funcionará sin probarlo antes. Pero seleccionar el algoritmo también depende del tamaño y tipo de datos con que se trabaje, la información que se desee obtener de los datos y cómo se vaya a emplear la información.

  • Máquinas de vectores de soporte
  • Análisis discriminante
  • Naive Bayes
  • Vecino más cercano

  • Regresión lineal, GLM
  • SVR, GPR
  • Métodos de ensemble
  • Árboles de decisión
  • Redes neuronales

  • K-means, K-medoids
  • Fuzzy C-means
  • Jerárquico
  • Mezcla gaussiana
  • Redes neuronales
  • Modelo oculto de Markov

Cuándo utilizar Machine Learning

Utilice Machine Learning cuando se enfrente a tareas o problemas complejos que impliquen una gran cantidad de datos y variables, pero no disponga de fórmulas o ecuaciones para solucionarlos. Por ejemplo, Machine Learning es buena opción si tiene que gestionar estas situaciones:

Las reglas y ecuaciones son demasiado complejas para desarrollarlas manualmente; por ejemplo, en reconocimiento facial y del habla.

La naturaleza de los datos cambia sin cesar y el programa debe adaptarse, como en trading automatizado, predicción del consumo de energía y predicción de tendencias de compra.

Las reglas de una tarea cambian constantemente, como en detección de fraudes en registros de transacciones.