Contenido principal

Desarrollo y evaluación de modelos

Generación de datos sintéticos, selección de características, ingeniería de características, selección de modelos, optimización de hiperparámetros, validación cruzada, evaluación de la capacidad predictiva y pruebas de comparación de la precisión de las clasificaciones

Al desarrollar un modelo de clasificación predictiva de alta calidad, es importante seleccionar las características (o predictores) correctos y ajustar los hiperparámetros (parámetros del modelo que no se han estimado). La selección de características y el ajuste de los hiperparámetros pueden arrojar varios modelos. Puede comparar las tasas de errores de clasificación de k particiones, las curvas ROC, por sus siglas en inglés) o las matrices de confusión entre los modelos. También puede realizar una prueba estadística para detectar si un modelo de clasificación supera significativamente a otro.

Puede realizar las siguientes acciones para desarrollar y evaluar modelos de clasificación:

  • Generar datos sintéticos a partir de un conjunto de datos existente antes de entrenar un modelo de clasificación usando synthesizeTabularData o binningTabularSynthesizer.

  • Extraer nuevas características antes de entrenar un modelo de clasificación utilizando gencfeatures.

  • Desarrollar y evaluar modelos de clasificación de forma interactiva utilizando la app Classification Learner.

  • Seleccionar automáticamente un modelo con hiperparámetros ajustados utilizando fitcauto. Esta función prueba una selección de tipos de modelos de clasificación con diferentes valores en los hiperparámetros y devuelve un modelo final que se prevé que funcione bien con los nuevos datos. Utilice fitcauto cuando no sepa con seguridad los tipos de clasificadores que mejor se adaptan a sus datos.

  • Ajustar los hiperparámetros de un modelo concreto seleccionando los valores de los hiperparámetros y realizando una validación cruzada del modelo con esos valores. Por ejemplo, para ajustar un modelo SVM, elija un conjunto de restricciones de cajas y escalas de kernel y, después, realice una validación cruzada de un modelo para cada par de valores. Determinadas funciones de clasificación de Statistics and Machine Learning Toolbox™ ofrecen un ajuste automático de los hiperparámetros mediante optimización bayesiana, búsqueda por cuadrículas o búsqueda aleatoria. bayesopt, la función principal para implementar la optimización bayesiana, es también lo suficientemente flexible para muchas otras aplicaciones. Consulte Bayesian Optimization Workflow.

  • Interpretar un modelo de clasificación utilizando lime, shapley y plotPartialDependence.

Apps

Classification LearnerEntrenar modelos para clasificar datos usando machine learning supervisado

Funciones

expandir todo

synthesizeTabularDataSynthesize tabular data (Desde R2024b)
binningTabularSynthesizerBinning-based synthesizer for tabular data synthesis (Desde R2024b)
synthesizeTabularDataSynthesize tabular data using binning-based synthesizer (Desde R2024b)
mmdtestTwo-sample multivariate hypothesis test using maximum mean discrepancy (MMD) (Desde R2024b)
knntestTwo-sample multivariate hypothesis test using k-nearest neighbors (KNN) (Desde R2025a)
fscchi2Univariate feature ranking for classification using chi-square tests
fscmrmrRank features for classification using minimum redundancy maximum relevance (MRMR) algorithm
fscncaFeature selection using neighborhood component analysis for classification
oobPermutedPredictorImportanceOut-of-bag predictor importance estimates for random forest of classification trees by permutation
permutationImportancePredictor importance by permutation (Desde R2024a)
predictorImportanceEstimates of predictor importance for classification tree
predictorImportanceEstimates of predictor importance for classification ensemble of decision trees
relieffRank importance of predictors using ReliefF or RReliefF algorithm
selectFeaturesSelect important features for NCA classification or regression (Desde R2023b)
sequentialfsSequential feature selection using custom criterion
gencfeaturesPerform automated feature engineering for classification (Desde R2021a)
describeDescribe generated features (Desde R2021a)
transformTransform new data using generated features (Desde R2021a)
fitcautoAutomatically select classification model with optimized hyperparameters
bayesoptSelect optimal machine learning hyperparameters using Bayesian optimization
hyperparametersVariable descriptions for optimizing a fit function
optimizableVariableDescripción de variables para bayesopt u otros optimizadores
learnersizeCompact size of trained machine learning model object (Desde R2024b)
plotPlot aggregated hyperparameter optimization results (Desde R2024b)
resumeResume hyperparameter optimization problems (Desde R2024b)
summarySummary table for AggregateBayesianOptimization object (Desde R2024b)
crossvalEstimate loss using cross-validation
cvpartitionPartición de datos para validación cruzada
repartitionRepartition data for cross-validation
summarySummarize cross-validation partition with stratification or grouping variable (Desde R2025a)
testÍndices de prueba para la validación cruzada
trainingÍndices de entrenamiento para la validación cruzada

Explicaciones independientes del modelo local interpretable (LIME, por sus siglas en inglés)

limeLocal interpretable model-agnostic explanations (LIME)
fitFit simple model of local interpretable model-agnostic explanations (LIME)
plotPlot results of local interpretable model-agnostic explanations (LIME)

Valores de Shapley

shapleyShapley values (Desde R2021a)
fitCompute Shapley values for query points (Desde R2021a)
plotPlot Shapley values using bar graphs (Desde R2021a)
boxchartVisualize Shapley values using box charts (box plots) (Desde R2024a)
plotDependencePlot dependence of Shapley values on predictor values (Desde R2024b)
swarmchartVisualize Shapley values using swarm scatter charts (Desde R2024a)

Dependencia parcial

partialDependenceCompute partial dependence
plotPartialDependenceCreate partial dependence plot (PDP) and individual conditional expectation (ICE) plots

Matriz de confusión

confusionchartCreate confusion matrix chart for classification problem
confusionmatCompute confusion matrix for classification problem

Curva de característica operativa del receptor (ROC)

rocmetricsReceiver operating characteristic (ROC) curve and performance metrics for binary and multiclass classifiers (Desde R2022a)
addMetricsCompute additional classification performance metrics (Desde R2022a)
aucArea under ROC curve or precision-recall curve (Desde R2024b)
averageCalcular las métricas de rendimiento para una curva de característica operativa del receptor (ROC) media en un problema multiclase (Desde R2022a)
modelOperatingPointOperating point of rocmetrics object (Desde R2024b)
plotPlot receiver operating characteristic (ROC) curves and other performance curves (Desde R2022a)
perfcurveReceiver operating characteristic (ROC) curve or other performance curve for classifier output
testcholdoutCompare predictive accuracies of two classification models
testckfoldCompare accuracies of two classification models by repeated cross-validation

Objetos

expandir todo

FeatureSelectionNCAClassificationFeature selection for classification using neighborhood component analysis (NCA)
FeatureTransformerGenerated feature transformations (Desde R2021a)
BayesianOptimizationBayesian optimization results
HyperparameterOptimizationOptionsHyperparameter optimization options (Desde R2024b)
AggregateBayesianOptimizationAggregate Bayesian optimization results (Desde R2024b)

Propiedades

ConfusionMatrixChart PropertiesConfusion matrix chart appearance and behavior
ROCCurve PropertiesReceiver operating characteristic (ROC) curve appearance and behavior (Desde R2022a)

Temas

App Classification Learner

Selección de características

Ingeniería de características

Selección de modelos automatizados

Optimización de hiperparámetros

Interpretación de modelos

Validación cruzada

Evaluación de la capacidad de la clasificación