Statistics and Machine Learning Toolbox

 

Statistics and Machine Learning Toolbox

Analice y modele datos mediante estadística y machine learning.

 

Statistics and Machine Learning Toolbox™ proporciona funciones y apps para describir, analizar y modelar datos. Puede utilizar estadísticas descriptivas y gráficos para el análisis exploratorio de datos, ajustar distribuciones de probabilidad a datos, generar números aleatorios para simulaciones Monte Carlo y realizar pruebas de hipótesis. Los algoritmos de regresión y clasificación le permiten extraer inferencias de los datos y crear modelos predictivos.

Para el análisis de datos multidimensionales, Statistics and Machine Learning Toolbox proporciona funciones para selección de características, regresión de pasos sucesivos, análisis de componentes principales (PCA, por sus siglas en inglés), regularización y otros métodos de reducción de dimensionalidad que le permiten identificar variables o características que afectan a su modelo.

Esta toolbox proporciona algoritmos de machine learning supervisados y sin supervisión, incluyendo máquinas de vector soporte (SVM), árboles de decisión boosted y bagged, k-vecino más próximo, k-means, k-medoids, clustering jerárquico, modelos de mezclas de gaussianas y modelos ocultos de Markov. Muchos de los algoritmos estadísticos y de machine learning se pueden emplear para realizar cálculos con conjuntos de datos que son demasiado grandes como para almacenarlos en la memoria.

Análisis exploratorio de datos

Explore los datos mediante la representación gráfica estadística con gráficos interactivos y estadísticas descriptivas. Identifique patrones y características con clustering.

Visualizaciones

Explore los datos de manera visual mediante gráficos de probabilidad, diagramas de caja, histogramas, gráficos cuantil-cuantil y gráficos avanzados para análisis multivariante, tales como dendrogramas, biplots y curvas de Andrews.

Utilice un gráfico de dispersión multidimensional para explorar las relaciones entre variables.

Estadísticas descriptivas

Comprenda y describa rápidamente conjuntos de datos potencialmente de gran tamaño mediante unos pocos números de gran relevancia.

Explore los datos mediante medias agrupadas y varianzas.

Análisis de clusters

Descubra patrones agrupando los datos mediante k-means, k-medoids, DBSCAN, clustering jerárquico, modelos de mezclas de gaussianas y modelos ocultos de Markov.

Aplicación de DBSCAN a dos grupos concéntricos.

Extracción de características y reducción de la dimensionalidad

Transforme datos sin procesar en características que sean más adecuadas para machine learning. Explore y cree nuevas características de manera iterativa y seleccione aquellas que optimicen el rendimiento.

Extracción de características

Extraiga características de los datos mediante técnicas de aprendizaje no supervisado tales como el filtrado disperso y la reconstrucción con el análisis de componentes independientes (ICA). También puede utilizar técnicas especializadas para extraer características de datos de imágenes, señales, texto y numéricos.

Extracción de características de señales proporcionadas por dispositivos móviles. 

Selección de características

Identifique automáticamente el subconjunto de características que proporciona la máxima capacidad predictiva al modelar los datos. Entre los métodos de selección de características se incluyen la regresión por pasos, la selección de características secuencial, la regularización y los métodos combinados.

El análisis NCA ayuda a seleccionar las características que conservan la mayor parte de la precisión del modelo.

Transformación de características y reducción de la dimensionalidad

Reduzca la dimensionalidad transformando las características existentes (no categóricas) en nuevas variables de predicción cuando se pueda prescindir de las características menos descriptivas. Entre los métodos de transformación de características se incluyen el análisis PCA, el análisis de factores y la factorización de matrices no negativas.

El análisis PCA proyecta muchas variables en forma de unas pocas ortogonales que conservan la mayor parte de la información.

Machine learning

Cree modelos predictivos de clasificación y regresión mediante apps interactivas. Seleccione las características y ajuste los modelos automáticamente optimizando los hiperparámetros.

Entrene, valide y ajuste modelos predictivos

Compare diversos algoritmos de machine learning, seleccione características, ajuste hiperparámetros y evalúe el rendimiento predictivo.

Clasificación

Modele una variable de respuesta categórica en forma de función de uno o más predictores. Utilice diversos algoritmos de clasificación paramétrica y no paramétrica, tales como regresión logística, SVM, árboles de decisión boosted y bagged, Naïve Bayes, análisis discriminante y k-vecinos más próximos.

Entrene clasificadores de manera interactiva con la app Classification Learner.

Optimización de modelos automatizada

Mejore el rendimiento de los modelos ajustando los hiperparámetros, seleccionando las características y solucionando los desequilibrios de los conjuntos de datos con matrices de coste.

Optimización de hiperparámetros de forma eficiente mediante optimización bayesiana.

Regresión y ANOVA

Modele una variable de respuesta continua en forma de función de uno o más predictores mediante regresión lineal y no lineal, modelos de efectos mixtos, modelos lineales generalizados y regresión no paramétrica. Asigne la varianza a diferentes orígenes mediante ANOVA.

Regresión lineal y no lineal

Modele el comportamiento de sistemas complejos con varios predictores o variables de respuesta eligiendo entre muchos algoritmos de regresión lineal y no lineal. Ajuste modelos multinivel o jerárquicos, lineales, no lineales y de efectos mixtos lineales generalizados con efectos aleatorios anidados y/o cruzados para realizar análisis longitudinal o de panel y modelado de medidas repetidas y del crecimiento.

Ajuste los modelos de regresión de manera interactiva con la app Regression Learner.

Regresión no paramétrica

Genere un ajuste preciso sin especificar un modelo que describa la relación entre los predictores y la respuesta, incluyendo SVM, bosques aleatorios, procesos gaussianos y núcleos gaussianos.

 Identifique valores atípicos mediante la regresión cuantílica.

Análisis de la varianza (ANOVA)

Asigne una varianza de muestra a distintos orígenes y determine si la variación surge dentro o entre distintos grupos de población. Utilice ANOVA de una vía, de dos vías, multivía, multivariante y no paramétrico, así como análisis de la covarianza (ANOCOVA) y análisis de medidas repetidas de la varianza (RANOVA).

Pruebe grupos mediante ANOVA multivía.

Distribuciones de probabilidad y contraste de hipótesis

Ajuste las distribuciones a los datos. Analice si las diferencias entre muestras son significativas o congruentes con la variación aleatoria de los datos. Genere números aleatorios a partir de diversas distribuciones.

Distribuciones de probabilidad

Ajuste distribuciones continuas y discretas, utilice gráficos estadísticos para evaluar la bondad de ajuste, y calcule funciones de densidad de probabilidad y funciones de distribución acumulada para más de 40 distribuciones diferentes.

Ajuste distribuciones de manera interactiva mediante la app Distribution Fitter.

Generación de números aleatorios

Genere cadenas de números pseudoaleatorios y cuasialeatorios a partir de una distribución de probabilidad ajustada o construida.

Genere números aleatorios de manera interactiva.

Contraste de hipótesis

Realice pruebas t, pruebas de distribuciones (chi cuadrado, Jarque-Bera, Lilliefors y Kolmogorov-Smirnov) y pruebas no paramétricas para muestras únicas, pareadas o independientes. Pruebe la autocorrección y la aleatoriedad y compare distribuciones (Kolmogorov-Smirnov para dos muestras).

Región de rechazo en una prueba t unilateral.

Estadística industrial

Analice estadísticamente los efectos y las tendencias de datos. Aplique técnicas de estadística industrial tales como un diseño de experimentos personalizado y el control de procesos estadísticos.

Diseño de experimentos (DOE)

Defina, analice y visualice un diseño de experimentos (DOE) personalizado. Cree y pruebe planes prácticos para enseñar a manipular las entradas de datos y a la vez a generar información sobre sus efectos en los datos de salida.

Aplique un diseño de Box-Behnken para generar superficies de respuesta de mayor orden.

Control de procesos estadísticos (SPC)

Supervise y mejore los productos o procesos evaluando la variabilidad de los procesos. Cree gráficos de control, estime la capacidad de los procesos y realice estudios sobre la repetibilidad y la reproducibilidad mediante equipos de medición.

Supervisión de procesos de fabricación mediante gráficos de control.

Análisis de fiabilidad y supervivencia

Visualice y analice los datos de tiempo hasta el fallo con y sin censura realizando una regresión de riesgos proporcionales de Cox y ajuste las distribuciones. Calcule funciones de riesgos empíricos, supervivientes y de distribución acumulada, así como estimaciones de densidad de los núcleos.

Datos de fallos como ejemplo de valores “censurados”.

Escale a big data y la nube

Aplique técnicas estadísticas y de machine learning a datos fuera de memoria. Acelere los cálculos estadísticos y el entrenamiento de modelos de machine learning en clusters e instancias en la nube.

Analice big data con tall arrays

Utilice tall arrays y tablas con una multitud de algoritmos de clasificación, regresión y clustering para entrenar modelos con conjuntos de datos que no caben en la memoria sin modificar su código.

Acelere los cálculos con Parallel Computing Toolbox o MATLAB Parallel Server™.

Cálculo en la nube y distribuido

Utilice instancias en la nube para acelerar los cálculos estadísticos y de machine learning. Ejecute la totalidad del flujo de trabajo de machine learning en MATLAB Online™.

Realice cálculos en instancias en la nube de Amazon o Azure.

Implementación y generación de código

Implemente estadísticas y machine learning en sistemas embebidos, acelere los cálculos intensivos desde el punto de vista computacional mediante código C y realice la integración con sistemas empresariales.

Generación de código

Genere código C o C++ transferible y legible para la inferencia de algoritmos de clasificación y regresión, estadística descriptiva y distribuciones de probabilidad mediante MATLAB CoderTM. Acelere la verificación y validación de sus simulaciones de alta fidelidad mediante modelos de machine learning a través de los bloques de función y los bloques de sistema de MATLAB.

Dos rutas para la implementación: generar código C o compilar código MATLAB.

Realice la integración con aplicaciones y sistemas empresariales

Implemente modelos estadísticos y de machine learning en forma de aplicaciones autónomas, de MapReduce, de Spark™, de apps web y de complementos de Microsoft® Excel® mediante MATLAB Compiler™. Cree librerías C/C++ compartidas, ensamblados Microsoft® .NET, clases de Java® y paquetes de Python® mediante MATLAB Compiler SDK™.

Utilice MATLAB Compiler para integrar un modelo de clasificación de la calidad del aire.

Actualización de los modelos implementados

Actualice los parámetros de los modelos implementados sin volver a generar el código de predicción C/C++.

Flujo de trabajo de generación de código y actualización de modelos.

Latest Features

Machine Learner Apps

Optimize hyperparameters in Classification Learner and Regression Learner, and specify misclassification costs in Classification Learner

Code Generation

Update a deployed decision tree or linear model without regenerating code, and generate C/C++ code for probability distribution functions (requires MATLAB Coder)

Code Generation

Generate fixed-point C/C++ code for the prediction of an SVM model (requires MATLAB Coder and )

Spectral Clustering

Perform spectral clustering using spectralcluster

Feature Ranking

Rank numeric and categorical features by their importance using a minimum redundancy maximum relevance (MRMR) algorithm and rank features for unsupervised learning using Laplacian scores

See the release notes for details on any of these features and corresponding functions.

Funcionalidades más recientes

Apps de machine learning

optimización de hiperparámetros en Classification Learner y Regression Learner; especificación de costes de errores de clasificación en Classification Learner

Generación de código

actualización de un modelo lineal o un árbol de decisión implementado sin regeneración de código y generación de código C/C++ para funciones de distribución de probabilidades (requiere MATLAB Coder)

Generación de código

generación de código C/C++ en punto fijo para la predicción de un modelo SVM (requiere MATLAB Coder y Fixed-Point Designer)

Clustering espectral

clustering espectral mediante spectralcluster

Clasificación de características

clasificación de las características numéricas y categóricas por importancia mediante un algoritmo de mínima redundancia-máxima relevancia (MRMR) y clasificación de características para el aprendizaje no supervisado mediante puntuaciones laplacianas

Consulte las notas de la versión para obtener detalles sobre estas características y las funciones correspondientes.

Consiga una prueba gratuita

30 días de exploración a su alcance.

Descargar ahora

¿Listo para comprar?

Solicitar precio y explore los productos relacionados.

¿Eres estudiante?

Obtenga el software para estudiantes de MATLAB y Simulink.

Más información