Statistics and Machine Learning Toolbox

 

Statistics and Machine Learning Toolbox

Analice y modele datos con estadística y machine learning

Más información:

Análisis exploratorio de datos

Explore los datos mediante la representación estadística con gráficas interactivas y estadística descriptiva. Identifique patrones y características con la agrupación.

Visualizaciones

Explore los datos de manera visual mediante gráficas de probabilidad, gráficas de cajas, histogramas, gráficas cuantil-cuantil y gráficas avanzadas para análisis multivariante, tales como dendrogramas, gráficas de dispersión biespaciales y gráficas de Andrews.

Identifique de manera visual el efecto de diversas características de un coche en el consumo de combustible.

Uso de una gráfica de dispersión multidimensional para explorar las relaciones entre variables.

Estadística descriptiva

Comprenda y describa rápidamente conjuntos de datos potencialmente de gran tamaño mediante unos pocos números de gran relevancia.

Observe el rango de sus variables de predicción potenciales mediante medias y gráficas de cajas.

Exploración de datos con medias agrupadas y varianzas.

Análisis de clusters

Descubra patrones agrupando los datos mediante K-means, K-medoids, DBSCAN, agrupación jerárquica y espectral, modelos de mezclas gaussianas y modelos ocultos de Markov.

DBSCAN puede separar clusters en los que fallan otros métodos de agrupación.

Aplicación de DBSCAN a dos grupos concéntricos.

Extracción de características y reducción de la dimensionalidad

Transforme datos sin procesar en características más adecuadas para machine learning. Explore y cree nuevas características de manera iterativa, y seleccione aquellas que optimicen el rendimiento.

Extracción de características

Extraiga características de los datos mediante técnicas de aprendizaje no supervisado tales como el filtrado disperso y la reconstrucción con el análisis de componentes independientes (ICA). También puede utilizar técnicas especializadas para extraer características de datos de imágenes, señales, texto y numéricos. Genere nuevas características automáticamente a partir de datos tabulares para tareas de clasificación y regresión.

Las señales de los acelerómetros y los giroscopios de los dispositivos móviles se utilizan para clasificar su actividad en cada momento (si está de pie, caminando, sentado, etc.).

Extracción de características de señales proporcionadas por dispositivos móviles. 

Selección de características

Identifique automáticamente el subconjunto de características que proporciona la máxima capacidad predictiva al modelar los datos. Entre los métodos de selección de características se incluyen la regresión por pasos, la selección de características secuencial, la regularización y los métodos de ensemble.

Análisis NCA que ayuda a seleccionar las características que conservan la mayor parte de la precisión del modelo.

Análisis NCA que ayuda a seleccionar las características que conservan la mayor parte de la precisión del modelo.

Transformación de características y reducción de la dimensionalidad

Reduzca la dimensionalidad transformando las características existentes (no categóricas) en nuevas variables de predicción cuando se pueda prescindir de las características menos descriptivas. Entre los métodos de transformación de características se incluyen el análisis PCA, el análisis de factores y la factorización de matrices no negativas.

La longitud de los vectores que representan la contribución de cada variable a los componentes principales revela su importancia; en este ejemplo, nueve variables socioeconómicas de calidad de vida en EE. UU.

PCA puede proyectar vectores de alta dimensionalidad en un sistema de coordenadas ortogonales de menor dimensionalidad conservando la mayor parte de la información.

Machine learning

Cree modelos predictivos de clasificación y regresión usando apps interactivas o machine learning automatizado (AutoML). Seleccione las características, identifique el mejor modelo y ajuste los hiperparámetros automáticamente. Interprete el comportamiento de los modelos aplicando algoritmos de interpretabilidad.

Entrene, valide y ajuste modelos predictivos

Compare diversos algoritmos de Machine Learning, incluidas las redes neuronales poco profundas, seleccione características, ajuste hiperparámetros y evalúe el rendimiento de muchos algoritmos de clasificación y regresión de uso habitual. Cree y optimice automáticamente modelos predictivos con apps interactivas, y mejore los modelos incrementalmente con datos de streaming. Reduzca la cantidad de datos a etiquetar aplicando el aprendizaje semisupervisado.

Interpretabilidad de modelos

Mejore la interpretabilidad de Machine Learning opaco mediante modelos naturalmente interpretables, como los modelos aditivos generadores (GAM), o aplicando métodos de interpretabilidad establecidos, como las gráficas de dependencia parcial, las expectativas condicionales individuales (ICE), las explicaciones independientes del modelo interpretables localmente (LIME) y valores de Shapley.

LIME crea aproximaciones simples de modelos complejos en un área local.

LIME crea aproximaciones simples de modelos complejos en un área local.

Machine learning automatizado (AutoML)

Mejore el rendimiento de los modelos ajustando los hiperparámetros, seleccionando las características y los modelos, y solucionando los desequilibrios de los conjuntos de datos con matrices de coste de forma automática.

La optimización de hiperparámetros visualiza el espacio de parámetros estimado y su progreso en la minimización de la función de error.

Optimización eficiente de hiperparámetros mediante optimización bayesiana.

Regresión y ANOVA

Modele una variable de respuesta continua como una función de uno o más predictores usando regresión lineal y no lineal, modelos de efectos mixtos, modelos lineales generalizados y regresión no paramétrica. Asigne la varianza a diferentes orígenes mediante ANOVA.

Regresión lineal y no lineal

Modele el comportamiento de sistemas complejos con varios predictores o variables de respuesta eligiendo entre muchos algoritmos de regresión lineal y no lineal. Ajuste modelos multinivel o jerárquicos, lineales, no lineales y de efectos mixtos lineales generalizados con efectos aleatorios anidados y/o cruzados para realizar análisis longitudinal o de panel y modelado de medidas repetidas y del crecimiento.

La app Regression Learner permite evaluar muchos métodos de regresión sin necesidad de escribir código.

Ajuste de los modelos de regresión de manera interactiva con la app Regression Learner.

Regresión no paramétrica

Genere un ajuste preciso sin especificar un modelo que describa la relación entre los predictores y la respuesta usando SVM, bosques aleatorios, redes neuronales superficiales, procesos gaussianos y kernels gaussianos.

Modele las desviaciones esperadas mediante la regresión cuantílica, con lo que se identificarán los valores atípicos.

Identificación de valores atípicos mediante la regresión cuantílica.

Análisis de la varianza (ANOVA)

Asigne una varianza de muestra a distintos orígenes y determine si la variación surge dentro o entre distintos grupos de población. Utilice ANOVA de una vía, de dos vías, multivía, multivariante y no paramétrico, así como análisis de la covarianza (ANOCOVA) y análisis de medidas repetidas de la varianza (RANOVA).

La herramienta de comparación múltiple permite probar varios grupos de manera interactiva mediante ANOVA multivía.

Prueba de grupos mediante ANOVA multivía.

Distribuciones de probabilidad y comprobación de hipótesis

Ajuste las distribuciones a los datos. Analice si las diferencias entre muestras son significativas o congruentes con la variación aleatoria de los datos. Genere números aleatorios a partir de diversas distribuciones.

Explore la bondad del ajuste de diversas distribuciones de manera interactiva.

Ajuste de distribuciones de manera interactiva mediante la app Distribution Fitter.

Generación de números aleatorios

Genere cadenas de números pseudoaleatorios y cuasialeatorios a partir de una distribución de probabilidad ajustada o construida.

Seleccione entre muchas distribuciones de probabilidad, proporcione sus parámetros clave y exporte los números aleatorios generados.

Generación de números aleatorios de manera interactiva.

Comprobación de hipótesis

Realice pruebas T, pruebas de distribuciones (chi cuadrado, Jarque-Bera, Lilliefors y Kolmogorov-Smirnov) y pruebas no paramétricas para muestras únicas, apareadas o independientes. Pruebe la autocorrección y la aleatoriedad, y compare distribuciones (Kolmogorov-Smirnov para dos muestras).

Visualización de la probabilidad de rechazo del nulo frente a la hipótesis alternativa.

Región de rechazo en una prueba T unilateral.

Estadística industrial

Analice estadísticamente los efectos y las tendencias de los datos. Aplique técnicas estadísticas industriales tales como un diseño de experimentos personalizado y el control de procesos estadísticos.

Diseño de experimentos (DOE)

Defina, analice y visualice un diseño de experimentos (DOE) personalizado. Cree y pruebe planes prácticos para enseñar a manipular las entradas de datos y a la vez a generar información sobre sus efectos en los datos de salida.

Observe dónde sugiere muestrear sus tres variables el diseño de Box-Behnken para obtener una buena representación del espacio de características.

Aplicación de un diseño de Box-Behnken para generar superficies de respuesta de mayor orden.

Control de procesos estadísticos (SPC)

Supervise y mejore los productos o procesos evaluando la variabilidad de los procesos. Cree gráficas de control, estime la capacidad de los procesos y realice estudios sobre la repetibilidad y la reproducibilidad mediante equipo de medición.

El gráfico de control revela de manera visual cuándo una medida traspasa los límites de control de un proceso.

Supervisión de procesos de fabricación mediante gráficas de control.

Análisis de fiabilidad y supervivencia

Visualice y analice los datos de tiempo hasta el fallo con y sin censura realizando una regresión de riesgos proporcionales de Cox, y ajuste las distribuciones. Calcule funciones de riesgos empíricos, de supervivientes y de distribución acumulada, así como estimaciones de densidad de kernel.

Visualice dónde los datos reales no abarcan el rango de tiempos de supervivencia.

Datos de fallos como ejemplo de valores “censurados”.

Big data, paralelización y computación en la nube

Aplique técnicas estadísticas y de machine learning a datos fuera de memoria. Acelere la computación estadística y el entrenamiento de modelos de machine learning con paralelización en clusters e instancias en la nube.

Análisis de big data con arrays altos

Utilice arrays altos y tablas con muchos algoritmos de clasificación, regresión y agrupación para entrenar modelos con conjuntos de datos que no caben en la memoria sin modificar su código.

Aceleración de las computaciones con Parallel Computing Toolbox o MATLAB Parallel Server.

Aceleración de las computaciones con Parallel Computing Toolbox o MATLAB Parallel Server.

Computación en la nube y distribuida

Utilice instancias en la nube para acelerar las computaciones estadísticas y de machine learning. Ejecute la totalidad del flujo de trabajo de machine learning en MATLAB Online™.

Las arquitecturas de referencia, MATLAB Parallel Server y NVIDIA GPU Cloud proporcionan acceso para ejecutar computaciones estadísticas y de machine learning en instancias en la nube.

Realice computaciones en instancias en la nube de Amazon o Azure.

Despliegue, generación de código e integración con Simulink

Despliegue estadísticas y machine learning en sistemas embebidos, acelere las computaciones de alta carga usando código C y realice la integración con sistemas empresariales y modelos de Simulink.

Generación de código

Genere código C o C++ portátil y legible para la inferencia de algoritmos de clasificación y regresión, estadística descriptiva y distribuciones de probabilidad usando MATLAB Coder™. Genere código C/C++ de predicción con precisión reducida utilizando Fixed Point Designer™ y actualice los parámetros de los modelos desplegados sin necesidad de regenerar el código de predicción.

Genere código C o compile código de MATLAB para el despliegue en hardware embebido y la integración con sistemas empresariales.

Dos opciones de despliegue: generación de código C o compilación de código de MATLAB.

Integración con aplicaciones y sistemas empresariales

Despliegue modelos estadísticos y de machine learning como aplicaciones autónomas MapReduce o Spark™, como apps web o como complementos de Microsoft® Excel® usando MATLAB Compiler™. Cree librerías C/C++ compartidas, ensamblados Microsoft® .NET, clases de Java® y paquetes de Python® mediante MATLAB Compiler SDK™.

Con MATLAB Compiler, puede integrar sus modelos de machine learning en sistemas empresariales y otras aplicaciones.

Uso de MATLAB Compiler para integrar un modelo de clasificación de la calidad del aire.

Code generation and model update workflow

Code generation and model update workflow

Machine Learning Onramp

An interactive introduction to practical machine learning methods for classification problems.