TrainingOptionsSGDM

Opciones de entrenamiento para gradiente descendente estocástico con momento

Descripción

Utilice un objeto TrainingOptionsSGDM para establecer opciones de entrenamiento para el optimizador de gradiente descendente estocástico con momento, incluida la información de la tasa de aprendizaje, el factor de regularización L₂ y el tamaño de minilote.

Creación

Cree un objeto TrainingOptionsSGDM utilizando trainingOptions y especificando "sgdm" como el primer argumento de entrada.

Propiedades

expandir todo

SGDM

`MaxEpochs` — Número máximo de épocas
`30` (predeterminado) | entero positivo

Número máximo de épocas (pasos completos de los datos) que desea usar para el entrenamiento, especificado como un entero positivo.

`MiniBatchSize` — Tamaño de minilote de
`128` (predeterminado) | entero positivo

Tamaño de minilote que desea usar para cada iteración de entrenamiento, especificado como un entero positivo. Un minilote es un subconjunto del conjunto de entrenamiento que se usa para evaluar el gradiente de la función de pérdida y actualizar los pesos.

Si el tamaño de minilote no divide el número de muestras de entrenamiento de manera uniforme, el software descarta los datos de entrenamiento que no caben en el minilote final completo de cada época. Si el tamaño de minilote es más pequeño que el número de muestras de entrenamiento, el software no descarta ningún dato.

`Shuffle` — Opción para cambiar el orden de los datos
`"once"` (predeterminado) | `"never"` | `"every-epoch"`

Opción para cambiar el orden de los datos, especificada como uno de estos valores:

"once": cambiar el orden de los datos de entrenamiento y validación una vez antes del entrenamiento.
"never": no cambiar el orden de los datos.
"every-epoch": cambiar el orden de los datos de entrenamiento antes de cada época de entrenamiento y cambiar el orden de los datos de validación antes de cada validación de la red neuronal. Si el tamaño de minilote no divide el número de muestras de entrenamiento de manera uniforme, el software descarta los datos de entrenamiento que no caben en el minilote final completo de cada época. Para evitar descartar los mismos datos cada época, establezca la opción de entrenamiento Shuffle en "every-epoch".

`InitialLearnRate` — Tasa de aprendizaje inicial
`0.01` (predeterminado) | escalar positivo

Tasa de aprendizaje inicial usada para el entrenamiento, especificada como un escalar positivo.

Si la tasa de aprendizaje es demasiado baja, el entrenamiento puede tardar mucho tiempo. Si la tasa de aprendizaje es demasiado alta, el entrenamiento podría lograr un resultado subóptimo o divergir.

`LearnRateSchedule` — Programación de la tasa de aprendizaje
`"none"` (predeterminado) | vector de caracteres | arreglo de cadena | objeto de programación de la tasa de aprendizaje integrado o personalizado | identificador de función | arreglo de celdas

Programación de la tasa de aprendizaje, especificada como un vector de caracteres o escalar de cadena de una programación de la tasa de aprendizaje, un arreglo de cadena de nombres, un objeto de programación de la tasa de aprendizaje integrado o personalizado, un identificador de función o un arreglo de celdas de nombres, objetos métricos e identificadores de función.

Nombres de programación de la tasa de aprendizaje integrada

Especifique las programaciones de la tasa de aprendizaje como un escalar de cadena, un vector de caracteres o un arreglo de cadenas o de celdas de uno o más de estos nombres:

Nombre	Descripción	Gráfica
`"none"`	No hay ninguna programación de la tasa de aprendizaje. Esta programación mantiene la tasa de aprendizaje constante.
`"piecewise"`	Programación de la tasa de aprendizaje por partes. Esta programación reduce la tasa de aprendizaje por un factor de 10 cada 10 épocas.
`"warmup"` (desde R2024b)	Programación de la tasa de aprendizaje de calentamiento. Esta programación aumenta la tasa de aprendizaje hasta la tasa de aprendizaje base durante 5 iteraciones.
`"polynomial"` (desde R2024b)	Programación de la tasa de aprendizaje polinómica. Esta programación reduce la tasa de aprendizaje utilizando una ley de potencia con un exponente unitario cada época.
`"exponential"` (desde R2024b)	Programación de la tasa de aprendizaje exponencial. Esta programación reduce la tasa de aprendizaje por un factor de `10` cada época.
`"cosine"` (desde R2024b)	Programación de la tasa de aprendizaje del coseno. Esta programación reduce la tasa de aprendizaje mediante una fórmula de coseno cada época.
`"cyclical"` (desde R2024b)	Programación de la tasa de aprendizaje cíclica. Esta programación aumenta la tasa de aprendizaje a partir de la tasa de aprendizaje base durante 5 épocas y, luego, disminuye la tasa de aprendizaje durante 5 épocas, a lo largo de periodos de 10 épocas.

Objeto de programación de la tasa de aprendizaje integrado (desde R2024b)

Si necesita más flexibilidad que la que ofrecen las opciones de cadena, puede utilizar objetos de programación de la tasa de aprendizaje integrados:

piecewiseLearnRate: un objeto de programación de la tasa de aprendizaje por partes disminuye la tasa de aprendizaje periódicamente multiplicándola por un factor especificado. Utilice este objeto para personalizar el factor y periodo de caída de la programación por partes.
Antes de R2024b: Personalice el factor y periodo de caída por partes mediante las opciones de entrenamiento LearnRateDropFactor y LearnRateDropPeriod, respectivamente.
warmupLearnRate: un objeto de programación de la tasa de aprendizaje de calentamiento aumenta la tasa de aprendizaje durante un número especificado de iteraciones. Utilice este objeto para personalizar los factores de la tasa de aprendizaje inicial y final y el número de pasos de la programación de calentamiento.
polynomialLearnRate: un objeto de programación de la tasa de aprendizaje polinómica reduce la tasa de aprendizaje utilizando una ley de potencia. Utilice este objeto para personalizar los factores de la tasa de aprendizaje inicial y final, el exponente y el número de pasos de la programación polinómica.
exponentialLearnRate: un objeto de programación de la tasa de aprendizaje exponencial reduce la tasa de aprendizaje por un factor especificado. Utilice este objeto para personalizar el factor y periodo de caída de la programación exponencial.
cosineLearnRate: un objeto de programación de la tasa de aprendizaje de coseno reduce la tasa de aprendizaje utilizando una curva coseno e incorpora reinicios en caliente. Utilice este objeto para personalizar los factores de la tasa de aprendizaje inicial y final, el periodo y el factor de crecimiento del periodo de la programación de coseno.
cyclicalLearnRate: un objeto de programación de la tasa de aprendizaje cíclica aumenta y disminuye la tasa de aprendizaje de forma periódica. Utilice esta opción para personalizar el factor máximo, el periodo y la relación de paso de la programación cíclica.

Programación de la tasa de aprendizaje personalizada (desde R2024b)

Para mayor flexibilidad, puede definir una programación de la tasa de aprendizaje personalizada como un identificador de función o una clase personalizada que herede de deep.LearnRateSchedule.

Identificador de función de la programación de la tasa de aprendizaje: si la programación de la tasa de aprendizaje que necesita no es una programación de la tasa de aprendizaje integrada, puede especificar programaciones de la tasa de aprendizaje personalizadas mediante un identificador de función. Para especificar una programación personalizada, utilice un identificador de función con la sintaxis learningRate = f(baseLearningRate,epoch), donde baseLearningRate es la tasa de aprendizaje base y epoch es el número de época.
Objeto de programación de la tasa aprendizaje personalizada: si necesita más flexibilidad que la que proporcionan los identificadores de función, puede definir una clase de programación de la tasa de aprendizaje personalizada que herede de deep.LearnRateSchedule.

Programaciones de la tasa de aprendizaje múltiples (desde R2024b)

Puede combinar varias programaciones de la tasa de aprendizaje especificando varias programaciones como un arreglo de cadenas o de celdas y, después, el software aplica las programaciones en orden, empezando por el primer elemento. Solo puede ser infinita una de las programaciones (programaciones que continúan indefinidamente, como "cyclical" y objetos con la propiedad NumSteps establecida en Inf) y la programación infinita debe ser el último elemento del arreglo.

`LearnRateDropPeriod` — Número de épocas para reducir la tasa de aprendizaje
`10` (predeterminado) | entero positivo

Número de épocas para reducir la tasa de aprendizaje, especificado como un entero positivo. Esta opción es válida solo cuando la opción de entrenamiento LearnRateSchedule es "piecewise".

El software multiplica la tasa de aprendizaje global por el factor de reducción cada vez que pasa el número de épocas especificado. Especifique el factor de reducción mediante la opción de entrenamiento LearnRateDropFactor.

`LearnRateDropFactor` — Factor para reducir la tasa de aprendizaje
`0.1` (predeterminado) | escalar de `0` a `1`

Factor para reducir la tasa de aprendizaje, especificado como un escalar de 0 a 1. Esta opción es válida solo cuando la opción de entrenamiento LearnRateSchedule es "piecewise".

LearnRateDropFactor es un factor multiplicativo para aplicar a la tasa de aprendizaje cada vez que pasa un determinado número de épocas. Especifique el número de épocas mediante la opción de entrenamiento LearnRateDropPeriod.

`Momentum` — Contribución del paso previo
`0.9` (predeterminado) | escalar de `0` a `1`

Contribución del paso de actualización de parámetros de la iteración previa a la iteración actual del gradiente descendente estocástico con momento, especificada como un escalar de 0 a 1.

Un valor de 0 indica que no hay contribución desde el paso previo, mientras que un valor de 1 indica una contribución máxima desde el paso previo. El valor predeterminado funciona bien para la mayoría de tareas.

Para obtener más información, consulte Gradiente descendente estocástico con momento.

Disposición de datos

`CategoricalInputEncoding` — Codificación de entradas categóricas
`"integer"` (predeterminado) | `"one-hot"`

Desde R2025a

Codificación de entradas categóricas, especificada como uno de estos valores:

"integer": convierte entradas categóricas a su valor entero. En este caso, la red debe tener un canal de entrada para cada una de las entradas categóricas.
"one-hot": convierte entradas categóricas a vectores codificados one-hot. En este caso, la red debe tener numCategories canales para cada una de las entradas categóricas, en los que numCategories es el número de categorías de la entrada categórica correspondiente.

`CategoricalTargetEncoding` — Codificación de objetivos categóricos
`"auto"` (predeterminado) | `"integer"` | `"one-hot"`

Desde R2025a

Codificación de objetivos categóricos, especificada como uno de estos valores:

"auto": si entrena con la función de pérdida "index-crossentropy", convierte objetivos categóricos a su valor entero. De lo contrario, convierte objetivos categóricos a vectores codificados one-hot.
"integer": convierte objetivos categóricos a su valor entero y pasa los valores de enteros codificados a las funciones de pérdida y métricas.
"one-hot": convierte objetivos categóricos a vectores codificados one-hot y pasa los valores codificados one-hot a las funciones de pérdida y métricas.

`InputDataFormats` — Descripción de dimensiones de datos de entrada
`"auto"` (predeterminado) | arreglo de cadena | arreglo de celdas de vectores de caracteres | vector de caracteres

Desde R2023b

Descripción de las dimensiones de los datos de entrada, especificada como un arreglo de cadenas, un vector de caracteres o un arreglo de celdas de vectores de caracteres.

Si InputDataFormats es "auto", el software usa los formatos esperados por la entrada de red. De lo contrario, el software usa los formatos especificados para la entrada de red correspondiente.

Un formato de datos es una cadena de caracteres, en la que cada carácter describe el tipo de la dimensión de datos correspondiente.

Los caracteres son los siguientes:

"S": espacial
"C": canal
"B": lote
"T": tiempo
"U": sin especificar

Por ejemplo, considere un arreglo que representa un lote de secuencias, donde la primera, la segunda y la tercera dimensión corresponden a canales, observaciones y unidades de tiempo, respectivamente. Puede describir los datos como datos que tienen el formato "CBT" (canal, lote, tiempo).

Puede especificar varias dimensiones etiquetadas "S" o "U". Puede utilizar las etiquetas "C", "B" y "T" como máximo una vez cada una. El software ignora las dimensiones únicas "U" restantes tras la segunda dimensión.

Para redes neuronales con varias entradas net, especifique un arreglo de formatos de datos de entrada, donde InputDataFormats(i) corresponde a la entrada net.InputNames(i).

Para obtener más información, consulte Deep Learning Data Formats.

Tipos de datos: char | string | cell

`TargetDataFormats` — Descripción de dimensiones de datos objetivo
`"auto"` (predeterminado) | arreglo de cadena | arreglo de celdas de vectores de caracteres | vector de caracteres

Desde R2023b

Descripción de las dimensiones de los datos objetivo, especificada como uno de estos valores:

"auto": si los datos objetivo contienen el mismo número de dimensiones que los de entrada, la función trainnet usa el formato especificado por InputDataFormats. Si los datos objetivo contienen un número de dimensiones distinto que los de entrada, la función trainnet usa el formato esperado por la función de pérdida.
Arreglo de cadenas, vector de caracteres o arreglo de celdas de vectores de caracteres: la función trainnet usa los formatos de datos especificados.

Un formato de datos es una cadena de caracteres, en la que cada carácter describe el tipo de la dimensión de datos correspondiente.

Los caracteres son los siguientes:

"S": espacial
"C": canal
"B": lote
"T": tiempo
"U": sin especificar

Para obtener más información, consulte Deep Learning Data Formats.

Tipos de datos: char | string | cell

Monitorización

`Plots` — Gráficas que se desea visualizar durante el entrenamiento de red neuronal
`"none"` (predeterminado) | `"training-progress"`

Gráficas que se desea visualizar durante el entrenamiento de red neuronal, especificadas como uno de los valores siguientes:

"none": no visualizar gráficas durante el entrenamiento.
"training-progress": representar el progreso del entrenamiento.

La gráfica muestra la pérdida de minilotes, la pérdida de validación, el minilote de entrenamiento y las métricas de validación tal como se especifican en la propiedad Metrics, así como información adicional sobre el progreso del entrenamiento.

Para abrir y cerrar de forma programática la gráfica del progreso del entrenamiento después del entrenamiento, use las funciones show y close con la segunda salida de la función trainnet. Puede usar la función show para ver el progreso del entrenamiento, incluso si la opción de entrenamiento Plots está especificada como "none".

Para cambiar la escala del eje y a logarítmica, utilice la barra de herramientas de los ejes. Training plot axes toolbar with log scale enabled and the tooltip "Log scale y-axis".

Para obtener más información sobre la gráfica, consulte Monitorizar el progreso del entrenamiento de deep learning.

`Metrics` — Métricas para monitorizar
`[]` (predeterminado) | vector de caracteres | arreglo de cadena | identificador de función | objeto `deep.DifferentiableFunction` (desde R2024a) | arreglo de celdas | objeto métrico

Desde R2023b

Métricas para monitorizar, especificadas como uno de estos valores:

Nombre de métrica integrada o de la función de pérdida: especifique las métricas como un escalar de cadena, un vector de caracteres o un arreglo de celdas o un arreglo de cadena de uno o varios de estos nombres:
- Métricas:
  - "accuracy": precisión (también conocida como precisión principal)
  - "auc": área bajo la curva ROC (AUC)
  - "fscore": puntuación F (también conocida como puntuación F₁)
  - "precision": precisión
  - "recall": recuperación
  - "rmse": raíz del error cuadrático medio
  - "mape": error porcentual absoluto medio (MAPE) (desde R2024b)
  - "rsquared": R² (R cuadrado o coeficiente de determinación) (desde R2025a)
- Funciones de pérdida:
  - "crossentropy": pérdida de entropía cruzada para tareas de clasificación. (desde R2024b)
  - "indexcrossentropy": índice de pérdida de entropía cruzada para tareas de clasificación. (desde R2024b)
  - "binary-crossentropy": pérdida de entropía cruzada binaria para tareas de clasificación binarias y multietiqueta. (desde R2024b)
  - "mae" / "mean-absolute-error" / "l1loss": error medio absoluto para tareas de regresión. (desde R2024b)
  - "mse" / "mean-squared-error" / "l2loss": error cuadrático medio para tareas de regresión. (desde R2024b)
  - "huber": pérdida de Huber para tareas de regresión (desde R2024b)
Tenga en cuenta que no se puede establecer la función de pérdida como "crossentropy" y especificar "index-crossentropy" como métrica ni establecer la función de pérdida como "index-crossentropy" y especificar "crossentropy" como métrica.
Para obtener más información sobre las métricas de deep learning y las funciones de pérdida, consulte Deep Learning Metrics.

Objeto métrico integrado: si necesita más flexibilidad, puede usar objetos métricos integrados. El software admite estos objetos métricos integrados:
- AccuracyMetric
- AUCMetric
- FScoreMetric
- PrecisionMetric
- RecallMetric
- RMSEMetric
- MAPEMetric (desde R2024b)
- RSquaredMetric (desde R2025a)
Al crear un objeto métrico integrado, puede especificar opciones adicionales, como el tipo promediador y si la tarea es de una sola o de varias etiquetas.
Identificador de función métrica personalizada: si la métrica que necesita no es una métrica integrada, puede especificar métricas personalizadas mediante un identificador de función. La función debe tener la sintaxis metric = metricFunction(Y,T), donde Y corresponde a las predicciones de la red y T corresponde a las respuestas objetivo. Para redes con varias salidas, la sintaxis debe ser metric = metricFunction(Y1,…,YN,T1,…TM), donde N es el número de salidas y M es el número de objetivos. Para obtener más información, consulte Define Custom Metric Function.
Nota
Cuando tiene datos en minilotes, el software calcula la métrica para cada minilote y luego devuelve el promedio de esos valores. Para algunas métricas, este comportamiento puede dar como resultado un valor de métrica diferente que si calcula la métrica usando todo el conjunto de datos a la vez. En la mayoría de los casos, los valores son similares. Para usar una métrica personalizada que no sea un promedio por lotes para los datos, debe crear un objeto métrico personalizado. Para obtener más información, consulte Define Custom Deep Learning Metric Object.
Objeto deep.DifferentiableFunction (desde R2024a): objeto de función con una función de retropropagación personalizada. Para los objetivos categóricos, el software convierte automáticamente los valores categóricos en vectores codificados one-hot y los pasa a la función métrica. Para obtener más información, consulte Define Custom Deep Learning Operations.
Objeto métrico personalizado: si necesita mayor personalización, puede definir su propio objeto métrico personalizado. Para ver un ejemplo de cómo crear una métrica personalizada, consulte Define Custom Metric Object. Para obtener información general sobre la creación de métricas personalizadas, consulte Define Custom Deep Learning Metric Object.

Si especifica una métrica como un identificador de función, un objeto deep.DifferentiableFunction o un objeto métrico personalizado y entrena la red neuronal utilizando la función trainnet, la distribución de los objetivos que el software pasa a la métrica depende del tipo de datos de los objetivos y de la función de pérdida que especifique en la función trainnet y de las otras métricas que especifique:

Si los objetivos son arreglos numéricos, el software pasa los objetivos a la métrica directamente.
Si la función de pérdida es "index-crossentropy" y los objetivos son arreglos categóricos, el software convierte automáticamente los objetivos en índices de clase numéricos y los pasa a la métrica.
Para otras funciones de pérdida, si los objetivos son arreglos categóricos, el software convierte automáticamente los objetivos en vectores codificados one-hot y luego los pasa a la métrica.

Esta opción solo admite las funciones trainnet y trainBERTDocumentClassifier (Text Analytics Toolbox).

Ejemplo: Metrics=["accuracy","fscore"]

Ejemplo: Metrics={"accuracy",@myFunction,precisionObj}

`ObjectiveMetricName` — Nombre de la métrica objetivo
`"loss"` (predeterminado) | escalar de cadena | vector de caracteres

Desde R2024a

Nombre de la métrica objetivo para su uso en la detención temprana y la devolución de la mejor red, especificado como escalar de cadena o vector de caracteres.

El nombre de la métrica debe ser "loss" o coincidir con el nombre de una métrica especificada por el argumento Metrics. Las métricas especificadas mediante identificadores de función no son compatibles. Para especificar el valor ObjectiveMetricName como el nombre de una métrica personalizada, el valor de la propiedad Maximize del objeto métrico personalizado no debe estar vacío. Para obtener más información, consulte Define Custom Deep Learning Metric Object.

Para obtener más información sobre la especificación de la métrica objetivo para la detención temprana, consulte ValidationPatience. Para obtener más información sobre la devolución de la mejor red mediante la métrica objetivo, consulte OutputNetwork.

Tipos de datos: char | string

`Verbose` — Indicador para mostrar información sobre el progreso del entrenamiento
`1` (`true`) (predeterminado) | `0` (`false`)

Indicador para mostrar información sobre el progreso del entrenamiento en la ventana de comandos, especificado como 1 (true) o 0 (false).

Cuando se utiliza la función trainnet, la salida detallada muestra una tabla con estas variables:

Variable	Descripción
`Iteration`	Número de iteraciones.
`Epoch`	Número de épocas.
`TimeElapsed`	Tiempo transcurrido en horas, minutos y segundos.
`LearnRate`	Tasa de aprendizaje.
`TrainingLoss`	Pérdida de entrenamiento.
`ValidationLoss`	Pérdida de validación. Si no especifica datos de validación, el software no muestra esta información.

Si especifica métricas adicionales en las opciones de entrenamiento, también aparecerán en la salida detallada. Por ejemplo, si configura la opción de entrenamiento Metrics como "accuracy", la información incluye las variables TrainingAccuracy y ValidationAccuracy.

Cuando el aprendizaje se detiene, la salida detallada muestra la razón de la detención.

Para especificar datos de validación, use la opción de entrenamiento ValidationData.

`VerboseFrequency` — Frecuencia de impresión detallada
`50` (predeterminado) | entero positivo

Frecuencia de la impresión detallada, que es el número de iteraciones entre cada impresión en la ventana de comandos, especificada como un entero positivo.

Si valida la red neuronal durante el entrenamiento, el software también imprime en la ventana de comandos cada vez que tiene lugar la validación.

Para habilitar esta propiedad, establezca la opción de entrenamiento Verbose en 1 (true).

Validación

`ValidationData` — Datos que desea usar para la validación durante el entrenamiento
`[]` (predeterminado) | almacén de datos | tabla | arreglo de celdas | objeto `minibatchqueue` (desde R2024a)

Datos que desea usar para la validación durante el entrenamiento, especificados como [], un almacén de datos, una tabla, un arreglo de celdas o un objeto minibatchqueue que contiene los predictores y los objetivos de la validación.

Durante el entrenamiento, el software usa los datos de validación para calcular la pérdida de validación y los valores métricos. Para especificar la frecuencia de validación, use la opción de entrenamiento ValidationFrequency. También puede utilizar los datos de validación para detener el entrenamiento automáticamente cuando la métrica objetivo de la validación deje de mejorar. De forma predeterminada, la métrica objetivo se establece como la pérdida. Para activar la detención automática de la validación, use la opción de entrenamiento ValidationPatience.

Si ValidationData es [], el software no valida la red neuronal durante el entrenamiento.

Si su red neuronal tiene capas que se comportan de forma diferente durante la predicción y durante el entrenamiento (por ejemplo, capas de abandono), la pérdida de validación puede ser menor que la pérdida de entrenamiento.

El software cambia los datos de validación de acuerdo con la opción de entrenamiento Shuffle. Si Shuffle es "every-epoch", el software cambia los datos de validación antes de cada validación de la red neuronal.

Los formatos admitidos dependen de la función de entrenamiento que se use.

Función `trainnet`

Especifique los datos de validación como un almacén de datos, una tabla, un objeto minibatchqueue o el arreglo de celdas {predictors,targets}, donde predictors contiene los predictores de validación y targets contiene los objetivos de validación. Especifique los valores de los predictores y objetivos de validación usando cualquiera de las disposiciones compatibles con la función trainnet.

Para obtener más información, consulte los argumentos de entrada de la función trainnet.

Función `trainBERTDocumentClassifier` (Text Analytics Toolbox)

Especifique los datos de validación como uno de estos valores:

Arreglo de celdas {documents,targets}, donde documents contiene los documentos de entrada y targets contiene las etiquetas de los documentos.
Tabla, donde la primera variable contiene los documentos de entrada y la segunda contiene las etiquetas de los documentos.

Para obtener más información, consulte los argumentos de entrada de la función trainBERTDocumentClassifier (Text Analytics Toolbox).

`ValidationFrequency` — Frecuencia de la validación de la red neuronal
`50` (predeterminado) | entero positivo

Frecuencia de la validación de la red neuronal en número de iteraciones, especificada como un entero positivo.

El valor ValidationFrequency es el número de iteraciones entre evaluaciones de métricas de validación. Para especificar datos de validación, use la opción de entrenamiento ValidationData.

`ValidationPatience` — Paciencia de la detención de la validación
`Inf` (predeterminado) | entero positivo

Paciencia de la detención de la validación del entrenamiento de red neuronal, especificada como un entero positivo o Inf.

ValidationPatience especifica el número de veces que la métrica objetivo del conjunto de validación puede ser peor que o igual al mejor valor anterior antes de que el entrenamiento de la red neuronal se detenga. Si ValidationPatience es Inf, los valores de la métrica de validación no hacen que el entrenamiento se detenga antes de tiempo. El software tiene como objetivo maximizar o minimizar la métrica, según lo especificado por la propiedad Maximize de la métrica. Cuando la métrica objetivo es "loss", el software tiene como objetivo minimizar el valor de pérdida.

La red neuronal devuelta depende de la opción de entrenamiento OutputNetwork. Para devolver la red neuronal con el mejor valor de métrica de validación, establezca la opción de entrenamiento OutputNetwork en "best-validation".

Antes de R2024a: El software calcula la paciencia de validación utilizando el valor de pérdida de validación.

`OutputNetwork` — Red neuronal que se desea devolver cuando se completa el entrenamiento
`"auto"` (predeterminado) | `"last-iteration"` | `"best-validation"`

Red neuronal que se desea devolver cuando se completa el entrenamiento, especificada como una de las siguientes opciones:

"auto": si se especifica ValidationData, utiliza "best-validation". En caso contrario, utiliza "last-iteration".
"best-validation": devuelve la red neuronal correspondiente a la iteración de entrenamiento con el mejor valor de métrica de validación, donde la métrica para optimizar se especifica mediante la opción ObjectiveMetricName. Para usar esta opción debe especificar la opción de entrenamiento ValidationData.
"last-iteration": devuelve la red neuronal correspondiente a la última iteración de entrenamiento.

Regularización y normalización

`L2Regularization` — Factor para regularización L₂
`0.0001` (predeterminado) | Escalar no negativo

Factor para regularización L₂ (decaimiento de peso), especificado como un escalar no negativo. Para obtener más información, consulte Regularización L2.

`ResetInputNormalization` — Opción para restablecer la normalización de la capa de entrada
`1` (`true`) (predeterminado) | `0` (`false`)

Opción para restablecer la normalización de la capa de entrada, especificada como una de las siguientes opciones:

1 (true): restablecer las estadísticas de normalización de la capa de entrada y recalcularlas en el momento del entrenamiento.
0 (false): calcular las estadísticas de normalización en el momento del entrenamiento cuando están vacías.

`BatchNormalizationStatistics` — Modo para evaluar estadísticas en capas de normalización de lotes
`"auto"` (predeterminado) | `"population"` | `"moving"`

Modo para evaluar estadísticas en capas de normalización de lotes, especificado como una de las siguientes opciones:

"population": usar las estadísticas de población. Después del entrenamiento, el software finaliza las estadísticas pasando por los datos de entrenamiento una vez más y utiliza la media y la varianza resultantes.
"moving": aproximar las estadísticas durante el entrenamiento utilizando una estimación continua dada por pasos de actualización

$\begin{array}{l} μ^{*} = λ_{μ} \hat{μ} + (1 - λ_{μ}) μ \\ σ^{2}^{*} = λ_{σ^{2}} \hat{σ^{2}} + (1- λ_{σ^{2}}) σ^{2} \end{array}$
, donde $μ^{*}$ y $σ^{2}^{*}$ denotan la media y la varianza actualizadas, respectivamente, $λ_{μ}$ y $λ_{σ^{2}}$ denotan los valores de decaimiento de la media y la varianza, respectivamente, $\hat{μ}$ y $\hat{σ^{2}}$ denotan la media y la varianza de la entrada de la capa, respectivamente, y $μ$ y $σ^{2}$ denotan los valores más recientes de los valores de media y varianza móviles, respectivamente. Después del entrenamiento, el software usa el valor más reciente de las estadísticas de media y varianza móviles. Esta opción solo es compatible con CPU y GPU única.
"auto": utilizar la opción "moving".

Recorte de gradiente

`GradientThreshold` — Umbral de gradiente
`Inf` (predeterminado) | escalar positivo

Umbral de gradiente, especificado como Inf o un escalar positivo. Si el gradiente supera el valor de GradientThreshold, este se recorta de acuerdo con la opción de entrenamiento GradientThresholdMethod.

Para obtener más información, consulte Recorte de gradiente.

`GradientThresholdMethod` — Método de umbral de gradiente
`"l2norm"` (predeterminado) | `"global-l2norm"` | `"absolute-value"`

Método de umbral de gradiente utilizado para recortar los valores de gradiente que superan el umbral de gradiente, especificado como una de las siguientes opciones:

"l2norm": si la norma L₂ del gradiente de un parámetro que se puede aprender es mayor que GradientThreshold, escalar el gradiente para que la norma L₂ sea igual a GradientThreshold.
"global-l2norm": si la norma L₂ global, L, es mayor que GradientThreshold, escalar todos los gradientes por un factor de GradientThreshold/L. La norma L₂ global considera todos los parámetros que se pueden aprender.
"absolute-value": si el valor absoluto de una derivada parcial individual en el gradiente de un parámetro que se puede aprender es mayor que GradientThreshold, escala la derivada parcial para tener una magnitud igual a GradientThreshold y mantenga el signo de la derivada parcial.

Para obtener más información, consulte Recorte de gradiente.

Secuencia

`SequenceLength` — Opción para rellenar o truncar secuencias
`"longest"` (predeterminado) | `"shortest"` | entero positivo

Opción para rellenar, truncar o dividir secuencias de entrada, especificada como uno de los siguientes valores:

"longest": rellenar secuencias en cada minilote para tener la misma longitud que la secuencia más larga. Esta opción no descarta ningún dato, aunque el relleno puede introducir ruido a la red neuronal.
"shortest": truncar secuencias en cada minilote para tener la misma longitud que la secuencia más corta. Esta opción garantiza que no se añade relleno, a costa de descartar datos.

Para obtener más información sobre el efecto del relleno, el truncado y la división de las secuencias de entrada, consulte Relleno y truncado de secuencias.

`SequencePaddingDirection` — Dirección de relleno o truncado
`"right"` (predeterminado) | `"left"`

Dirección de relleno o truncado, especificada como una de las siguientes opciones:

"right": rellenar o truncar secuencias a la derecha. Las secuencias comienzan en la misma unidad de tiempo y el software trunca o añade relleno al final de cada secuencia.
"left": rellenar o truncar secuencias a la izquierda. El software trunca o añade relleno al principio de cada secuencia para que las secuencias finalicen en la misma unidad de tiempo.

Las capas recurrentes procesan los datos secuenciales en una unidad de tiempo cada vez, por lo que cuando la propiedad OutputMode de la capa recurrente es "last", cualquier relleno en las unidades de tiempo finales puede influir negativamente en la salida de la capa. Para rellenar o truncar datos secuenciales a la izquierda, establezca el argumento nombre-valor SequencePaddingDirection en "left".

Para redes neuronales secuencia a secuencia (cuando la propiedad OutputMode es "sequence" para cada capa recurrente), cualquier relleno en las primeras unidades de tiempo puede influir negativamente en las predicciones para unidades de tiempo anteriores. Para rellenar o truncar datos secuenciales a la derecha, establezca el argumento nombre-valor SequencePaddingDirection en "right".

Para obtener más información sobre los efectos del relleno y el truncado de secuencias, consulte Relleno y truncado de secuencias.

`SequencePaddingValue` — Valor con el que rellenar secuencias de entrada
`0` (predeterminado) | escalar

Valor con el que rellenar secuencias de entrada, especificado como un escalar.

No rellene secuencias con NaN, porque haciéndolo se pueden propagar errores por la red neuronal.

Hardware y aceleración

`ExecutionEnvironment` — Recurso de hardware para entrenar red neuronal
`"auto"` (predeterminado) | `"cpu"` | `"gpu"` | `"multi-gpu"` | `"parallel-auto"` | `"parallel-cpu"` | `"parallel-gpu"`

Recurso de hardware para entrenar la red neuronal, especificado como uno de estos valores:

"auto": usar una GPU local si hay alguna disponible. Si no, usar la CPU local.
"cpu": usar la CPU local.
"gpu": usar la GPU local.
"multi-gpu": usar varias GPU en una máquina, usando un grupo paralelo local basado en su perfil de cluster predeterminado. Si no hay grupo paralelo actual, el software inicia un grupo paralelo con un tamaño de grupo idéntico al número de GPU disponibles.
"parallel-auto": usar un grupo paralelo local o remoto. Si no hay grupo paralelo actual, el software inicia uno mediante el perfil de cluster predeterminado. Si el grupo tiene acceso a varias GPU, solo los workers con una GPU única realizan el cálculo de entrenamiento y los workers sobrantes pasan a estar inactivos. Si el grupo no tiene varias GPU, en su lugar el entrenamiento se realiza en todos los workers de las CPU disponibles. (desde R2024a)
Antes de R2024a: En su lugar, use "parallel".
"parallel-cpu": usar los recursos de la CPU en un grupo paralelo local o remoto, ignorando las GPU. Si no hay grupo paralelo actual, el software inicia uno mediante el perfil de cluster predeterminado. (desde R2023b)
"parallel-gpu": usar las GPU en un grupo paralelo local o remoto. Los workers sobrantes pasan a estar inactivos. Si no hay grupo paralelo actual, el software inicia uno mediante el perfil de cluster predeterminado. (desde R2023b)

Las opciones "gpu", "multi-gpu", , "parallel-auto", "parallel-cpu" y "parallel-gpu" requieren Parallel Computing Toolbox™. Para utilizar una GPU para deep learning, debe también disponer de un dispositivo GPU compatible. Para obtener información sobre los dispositivos compatibles, consulte GPU Computing Requirements (Parallel Computing Toolbox). Si elige una de estas opciones y Parallel Computing Toolbox o una GPU adecuada no está disponible, el software devuelve un error.

Para obtener más información sobre cuándo utilizar los diferentes entornos de ejecución, consulte Scale Up Deep Learning in Parallel, on GPUs, and in the Cloud.

Para ver una mejora en el rendimiento durante el entrenamiento en paralelo, intente escalar las opciones de entrenamiento MiniBatchSize e InitialLearnRate en función del número de las GPU.

`PreprocessingEnvironment` — Entorno para buscar y preprocesar datos
`"serial"` (predeterminado) | `"background` | `"parallel"`

Desde R2024a

Entorno para buscar y preprocesar datos de un almacén de datos durante el entrenamiento, especificado como uno de estos valores:

"serial": buscar y preprocesar datos en serie.
"background": buscar y preprocesar datos usando el grupo de fondo.
"parallel": buscar y preprocesar datos usando workers paralelos. El software abre un grupo paralelo local usando el perfil predeterminado, si no hay ningún grupo local abierto actualmente. Los grupos paralelos no locales no son compatibles. Para usar esta opción se necesita Parallel Computing Toolbox. Esta opción no es compatible cuando se entrena en paralelo (cuando la opción ExecutionEnvironment es "parallel-auto", "parallel-cpu", "parallel-gpu" o "multi-gpu").

Para usar las opciones "background" o "parallel", el almacén de datos de entrada debe ser subconfigurable o divisible en particiones. Los almacenes de datos personalizados deben implementar la clase matlab.io.datastore.Subsettable.

Las opciones "background" y "parallel" no son compatibles cuando la opción Shuffle es "never".

Si utiliza las opciones "background" y "parallel", el entrenamiento no es determinista, aunque utilice la función deep.gpu.deterministicAlgorithms.

Utilice la opción "background" cuando sus minilotes necesiten un preprocesamiento sustancial. Si el preprocesamiento no es compatible con hilos, o si necesita controlar el número de workers, utilice la opción "parallel". Para obtener más información sobre el entorno de preprocesamiento, consulte Preprocess Data in the Background or in Parallel.

Antes de R2024a: Para preprocesar datos en paralelo, establezca la opción de entrenamiento DispatchInBackground en 1 (true).

`Acceleration` — Optimización de rendimiento
`"auto"` (predeterminado) | `"none"`

Desde R2024a

Optimización del rendimiento, especificada como uno de estos valores:

"auto": aplica automáticamente un número de optimizaciones adecuado para la red de entrada y los recursos de hardware.
"none": deshabilita todas las optimizaciones.

El uso de la opción de aceleración "auto" puede ofrecer beneficios de rendimiento, pero a costa de un mayor tiempo de ejecución inicial. Las siguientes llamadas con parámetros compatibles son más rápidas. Utilice la optimización de rendimiento cuando planee llamar a la función varias veces con datos de entrada diferentes con el mismo tamaño y forma.

Puntos de control

`CheckpointPath` — Ruta para guardar las redes neuronales de puntos de control
`""` (predeterminado) | escalar de cadena | vector de caracteres

Ruta para guardar las redes neuronales de puntos de control, especificada como un escalar de cadena o vector de caracteres.

Si no especifica una ruta (es decir, si usa la opción predeterminada ""), el software no guarda ninguna red neuronal de puntos de control.
Si especifica una ruta, el software guarda las redes neuronales de puntos de control en esta ruta y asigna un nombre único a cada red neuronal. Después, puede cargar cualquier red neuronal de puntos de control y retomar el entrenamiento desde esa red neuronal.
Si la carpeta no existe, deberá crearla antes de especificar la ruta para guardar las redes neuronales de puntos de control. Si la ruta que especifica no existe, el software devuelve un error.

Tipos de datos: char | string

`CheckpointFrequency` — Frecuencia con la que se guardan redes neuronales de puntos de control
`1` (predeterminado) | entero positivo

Frecuencia con la que se guardan redes neuronales de puntos de control, especificada como un entero positivo.

Si CheckpointFrequencyUnit es "epoch", el software guarda las redes neuronales de puntos de control cada CheckpointFrequency épocas.

Si CheckpointFrequencyUnit es "iteration", el software guarda las redes neuronales de puntos de control cada CheckpointFrequency iteraciones.

Esta opción tiene efecto cuando CheckpointPath no está vacío.

`CheckpointFrequencyUnit` — Unidad de frecuencia de punto de control
`"epoch"` (predeterminado) | `"iteration"`

Unidad de frecuencia de punto de control, especificada como "epoch" o "iteration".

Si CheckpointFrequencyUnit es "epoch", el software guarda las redes neuronales de puntos de control cada CheckpointFrequency épocas.

Si CheckpointFrequencyUnit es "iteration", el software guarda las redes neuronales de puntos de control cada CheckpointFrequency iteraciones.

Esta opción tiene efecto cuando CheckpointPath no está vacío.

`OutputFcn` — Funciones de salida
identificador de función | arreglo de celdas de identificadores de función

Funciones de salida a las que llamar durante el entrenamiento, especificadas como identificador de función o arreglo de celdas de identificadores de función. El software llama a las funciones una vez antes del inicio del entrenamiento, después de cada iteración y una vez cuando ha finalizado el entrenamiento.

Las funciones deben tener la sintaxis stopFlag = f(info), donde info es una estructura que contiene información sobre el progreso del entrenamiento y stopFlag es un escalar que indica que se debe detener el entrenamiento antes de tiempo. Si stopFlag es 1 (true), el software detiene el entrenamiento. En caso contrario, el software continúa el entrenamiento.

La función trainnet pasa a la función de salida la estructura info que contiene estos campos:

Campo	Descripción
`Epoch`	Número de épocas
`Iteration`	Número de iteraciones
`TimeElapsed`	Tiempo desde el inicio del entrenamiento
`LearnRate`	Tasa de aprendizaje de iteraciones
`TrainingLoss`	Pérdida de entrenamiento de iteraciones
`ValidationLoss`	Pérdida de validación, si se especifica y se evalúa en la iteración.
`State`	Estado de entrenamiento de iteraciones, especificado como `"start"`, `"iteration"` o `"done"`.

Si especifica métricas adicionales en las opciones de entrenamiento, también aparecerán en la información de entrenamiento. Por ejemplo, si configura la opción de entrenamiento Metrics como "accuracy", la información incluye los campos TrainingAccuracy y ValidationAccuracy.

Si un campo no se calcula o no es relevante para una determinada llamada a las funciones de salida, este contiene un arreglo vacío.

Para ver un ejemplo de cómo utilizar funciones de salida, consulte Custom Stopping Criteria for Deep Learning Training.

Tipos de datos: function_handle | cell

Ejemplos

contraer todo

Especificar las opciones de entrenamiento

Abrir script en vivo

Cree un conjunto de opciones para entrenar una red mediante gradiente descendente estocástico con momento. Reduzca la tasa de aprendizaje por un factor de 0.2 cada 5 épocas. Establezca el número máximo de épocas para entrenamiento en 20 y use un minilote con 64 observaciones en cada iteración. Active la gráfica de progreso del entrenamiento.

options = trainingOptions("sgdm", ...
    LearnRateSchedule="piecewise", ...
    LearnRateDropFactor=0.2, ...
    LearnRateDropPeriod=5, ...
    MaxEpochs=20, ...
    MiniBatchSize=64, ...
    Plots="training-progress")

options = 
  TrainingOptionsSGDM with properties:

                        Momentum: 0.9000
                       MaxEpochs: 20
                InitialLearnRate: 0.0100
               LearnRateSchedule: 'piecewise'
             LearnRateDropFactor: 0.2000
             LearnRateDropPeriod: 5
                   MiniBatchSize: 64
                         Shuffle: 'once'
         CheckpointFrequencyUnit: 'epoch'
        PreprocessingEnvironment: 'serial'
                         Verbose: 1
                VerboseFrequency: 50
                  ValidationData: []
             ValidationFrequency: 50
              ValidationPatience: Inf
                         Metrics: []
             ObjectiveMetricName: 'loss'
            ExecutionEnvironment: 'auto'
                           Plots: 'training-progress'
                       OutputFcn: []
                  SequenceLength: 'longest'
            SequencePaddingValue: 0
        SequencePaddingDirection: 'right'
                InputDataFormats: "auto"
               TargetDataFormats: "auto"
         ResetInputNormalization: 1
    BatchNormalizationStatistics: 'auto'
                   OutputNetwork: 'auto'
                    Acceleration: "auto"
                  CheckpointPath: ''
             CheckpointFrequency: 1
        CategoricalInputEncoding: 'integer'
       CategoricalTargetEncoding: 'auto'
                L2Regularization: 1.0000e-04
         GradientThresholdMethod: 'l2norm'
               GradientThreshold: Inf

Algoritmos

expandir todo

Gradiente descendente estocástico

El algoritmo de gradiente descendente estándar actualiza los parámetros de red (pesos y sesgos) para minimizar la función de pérdida realizando pequeños pasos en cada iteración en la dirección del gradiente negativo de la pérdida,

$θ_{ℓ + 1} = θ_{ℓ} - α \nabla E (θ_{ℓ}),$

donde $ℓ$ es el número de iteración, $α > 0$ es la tasa de aprendizaje, $θ$ es el vector de parámetros y $E (θ)$ es la función de pérdida. En el algoritmo de gradiente descendente estándar, el gradiente de la función de pérdida, $\nabla E (θ)$ , se evalúa utilizando todo el conjunto de entrenamiento y el algoritmo de gradiente descendente estándar usa todo el conjunto de datos al mismo tiempo.

En cambio, en cada iteración el algoritmo de gradiente descendente estocástico evalúa el gradiente y actualiza los parámetros mediante un subconjunto de los datos de entrenamiento. En cada iteración se usa un subconjunto diferente, llamado minilote. La pasada completa del algoritmo de entrenamiento por todo el conjunto de entrenamiento usando minilotes es una época. El gradiente descendente estocástico es estocástico porque las actualizaciones de parámetros calculadas usando un minilote son una estimación con ruido de la actualización de parámetros que resultaría de usar el conjunto de datos completo.

Gradiente descendente estocástico con momento

El algoritmo de gradiente descendente estocástico puede oscilar por la ruta del descenso más pronunciado hacia el valor óptimo. Añadir un término de momento a la actualización de parámetros es una forma de reducir esta oscilación [2]. La actualización de gradiente descendente estocástico con momento (SGDM) es

$θ_{ℓ + 1} = θ_{ℓ} - α \nabla E (θ_{ℓ}) + γ (θ_{ℓ} - θ_{ℓ - 1}),$

donde la tasa de aprendizaje α y el valor del momento $γ$ determinan la contribución del paso de gradiente previo a la iteración actual.

Regularización L₂

Añadir un término de regularización para los pesos a la función de pérdida $E (θ)$ es una forma de reducir el sobreajuste [1], [2]. El término de regularización también se llama decaimiento de peso. La función de pérdida con el término de regularización toma la forma

$E_{R} (θ) = E (θ) + λ Ω (w),$

donde $w$ es el vector de peso, $λ$ es el factor de regularización (coeficiente) y la función de regularización $Ω (w)$ es

$Ω (w) = \frac{1}{2} w^{T} w .$

Tenga en cuenta que los sesgos no están regularizados [2]. Puede especificar el factor de regularización $λ$ mediante la opción de entrenamiento L2Regularization. También puede especificar factores de regularización para capas individuales y parámetros que se pueden aprender usando la función setL2Factor.

La función de pérdida que el software utiliza para el entrenamiento de red incluye el término de regularización. No obstante, el valor de pérdida mostrado en la ventana de comandos y la gráfica de progreso del entrenamiento durante el entrenamiento es solo la pérdida en los datos y no incluye el término de regularización.

Recorte de gradiente

Si los gradientes aumentan de magnitud exponencialmente, el entrenamiento es inestable y puede divergir en unas pocas iteraciones. Esta "explosión de gradiente" se indica por medio de una pérdida de entrenamiento que va a NaN o Inf. El recorte de gradiente ayuda a evitar la explosión de gradiente estabilizando el entrenamiento en tasas de aprendizaje mayores y en presencia de valores atípicos [3]. El recorte de gradiente permite entrenar las redes más rápidamente y normalmente no afecta a la precisión de la tarea aprendida.

Hay dos tipos de recorte de gradiente.

El recorte de gradiente basado en normas vuelve a escalar el gradiente en base a un umbral y no cambia la dirección del gradiente. Los valores "l2norm" y "global-l2norm" de GradientThresholdMethod son métodos de recorte de gradiente basados en normas.
El recorte de gradiente basado en valores acorta cualquier derivada parcial mayor que el umbral, lo que puede provocar que el gradiente cambie de dirección arbitrariamente. El recorte de gradiente basado en valores puede tener un comportamiento impredecible, pero los cambios suficientemente pequeños no hacen que la red diverja. El valor "absolute-value" de GradientThresholdMethod es un método de recorte de gradiente basado en valores.

Referencias

[1] Bishop, C. M. Pattern Recognition and Machine Learning. Springer, New York, NY, 2006.

[2] Murphy, K. P. Machine Learning: A Probabilistic Perspective. The MIT Press, Cambridge, Massachusetts, 2012.

[3] Pascanu, R., T. Mikolov, and Y. Bengio. "On the difficulty of training recurrent neural networks". Proceedings of the 30th International Conference on Machine Learning. Vol. 28(3), 2013, pp. 1310–1318.

Historial de versiones

Introducido en R2016a

expandir todo

R2025a: Especificar codificación numérica para entradas y objetivos categóricos

Para especificar cómo convertir entradas y objetivos categóricos a valores numéricos para entrenar una red neuronal, utilice los argumentos CategoricalInputEncoding y CategoricalTargetEncoding, respectivamente.

R2024b: Entrenar redes neuronales usando más programaciones de tasa de aprendizaje

Entrene redes neuronales utilizando las siguientes programaciones de la tasa de aprendizaje, especificándolos como argumento LearnRateSchedule de la función trainingOptions:

"warmup": programación de la tasa de aprendizaje de calentamiento
"polynomial": programación de la tasa de aprendizaje polinómica
"exponential": programación de la tasa de aprendizaje exponencial
"cosine": programación de la tasa de aprendizaje del coseno
"cyclical": programación de la tasa de aprendizaje cíclica

Para personalizar estas programaciones de la tasa de aprendizaje, utilice los siguientes objetos:

warmupLearnRate: objeto de programación de la tasa de aprendizaje de calentamiento
polynomialLearnRate: programación de la tasa de aprendizaje polinómica
exponentialLearnRate: programación de la tasa de aprendizaje exponencial
cosineLearnRate: programación de la tasa de aprendizaje del coseno
cyclicalLearnRate: programación de la tasa de aprendizaje cíclica

En versiones anteriores, se podía entrenar utilizando una programación de la tasa de aprendizaje por partes o incluso sin ninguna programación de la tasa de aprendizaje.

Para personalizar la programación de la tasa de aprendizaje por partes existente, utilice un objeto piecewiseLearnRate.

Para especificar una programación personalizada, utilice un identificador de función con la sintaxis learnRate = f(initialLearnRate,epoch) o defina su propio objeto de programación de la tasa de aprendizaje personalizado definiendo una clase que herede de deep.LearnRateSchedule.

R2024b: Monitorizar y representar más métricas durante el entrenamiento

Utilice objetos métricos nuevos y actualizados durante el entrenamiento y la prueba de redes.

MAPEMetric: error porcentual absoluto medio (MAPE)
AccuracyMetric con la nueva opción NumTopKClasses: precisión Top-k
FScoreMetric con la nueva opción Beta: puntuación F_β

También puede especificar directamente estos nuevos nombres de métricas integradas y de pérdidas:

"mape": error porcentual absoluto medio (MAPE)
"crossentropy": pérdida de entropía cruzada
"index-crossentropy": índice de pérdida de entropía cruzada
"binary-crossentropy": pérdida de entropía cruzada binaria
"mse" / "mean-squared-error" / "l2loss": error cuadrático medio
"mae" / "mean-absolute-error" / "l1loss": error medio absoluto
"huber": pérdida de Huber

R2024a: Especificar los datos de validación con un objeto `minibatchqueue`

Especifique los datos de validación como un objeto minibatchqueue mediante el argumento ValidationData.

R2024a: Optimización automática del rendimiento

Acelere el entrenamiento con la optimización automática del rendimiento. Cuando entrena una red mediante la función trainnet, la optimización automática del rendimiento se habilita de forma predeterminada. Puede deshabilitar la optimización del rendimiento estableciendo la opción Acceleration en "none" mediante la función trainingOptions.

R2024a: Especificar métricas como un objeto `deep.DifferentiableFunction`

Especifique las métricas como un objeto deep.DifferentiableFunction.

R2024a: La opción de entrenamiento `DispatchInBackground` no está recomendada

La opción de entrenamiento DispatchInBackground no está recomendada. Utilice la opción PreprocessingEnvironment en su lugar.

La opción PreprocessingEnvironment proporciona la misma funcionalidad y también le permite usar backgroundPool para el preprocesamiento cuando establece PreprocessingEnvironment como "background".

Esta tabla muestra cómo actualizar el código:

No recomendado	Recomendado
`trainingOptions(solverName,DispatchInBackground=false)` (valor predeterminado)	`trainingOptions(solverName,PreprocessingEnvironment="serial")` (valor predeterminado)
`trainingOptions(solverName,DispatchInBackground=true)`	`trainingOptions(solverName,PreprocessingEnvironment="parallel")`

No está previsto eliminar la opción DispatchInBackground.

R2024a: El valor predeterminado de `OutputNetwork` es `"auto"`

A partir de la versión R2024a, el valor predeterminado de la opción de entrenamiento OutputNetwork es "auto". Si ha especificado datos de validación, el software devuelve la red correspondiente al mejor valor de métrica de validación. Si no ha especificado datos de validación, el software devuelve la red correspondiente a la última iteración de entrenamiento. Si tiene datos de validación y desea replicar el valor predeterminado anterior, establezca OutputNetwork como "last-iteration".

Este cambio se aplica cuando se utilizan las opciones de entrenamiento únicamente con trainnet. Si está utilizando las opciones de entrenamiento con la función trainNetwork, entonces no hay ningún cambio en el comportamiento y, de forma predeterminada, el software devuelve la red correspondiente a la última iteración de entrenamiento.

R2024a: El valor `"best-validation-loss"` de `OutputNetwork` no está recomendado

No se recomienda especificar OutputNetwork como "best-validation-loss". Si tiene un código que establece OutputNetwork como "best-validation-loss", utilice "best-validation" en su lugar. El software devuelve la red correspondiente al mejor valor de métrica de validación según lo especificado por la opción ObjectiveMetricName. De forma predeterminada, el valor ObjectiveMetricName se establece como "loss". Este comportamiento se aplica cuando se utilizan las opciones de entrenamiento únicamente con la función trainnet.

Cuando utiliza las opciones de entrenamiento con la función trainNetwork, si especifica OutputNetwork como "best-validation", el software siempre devuelve la red con el mejor valor de pérdida de validación.

R2024a: El valor `"parallel"` de `ExecutionEnvironment` no está recomendado

A partir de la versión R2024a, no se recomienda especificar la opción ExecutionEnvironment como "parallel". En su lugar, use "parallel-auto".

"parallel-auto" tiene estas ventajas respecto a "parallel":

El nombre de la opción describe con mayor precisión el entorno de ejecución, ya que el software se entrena en paralelo de forma automática utilizando cualquier hardware disponible.
El nombre de la opción es coherente con el equivalente en serie, "auto".

No está previsto eliminar la opción "parallel". "parallel-auto" solo admite la función trainnet. Si está utilizando las opciones de entrenamiento con la función trainNetwork, continúe usando "parallel".

R2024a: La opción de entrenamiento `WorkerLoad` no está recomendada

A partir de la versión R2024a, no se recomienda especificar la opción de entrenamiento WorkerLoad. Utilice spmd (Parallel Computing Toolbox) o la variable de entorno CUDA_VISIBLE_DEVICES en su lugar.

No está previsto eliminar el soporte para las redes de entrenamiento WorkerLoad que utilizan la función trainNetwork. WorkerLoad no es compatible con las redes de entrenamiento que utilizan la función trainnet.

Esta tabla muestra algunos usos habituales de WorkerLoad y cómo actualizar el código para usar spmd o la variable de entorno CUDA_VISIBLE_DEVICES en su lugar.

No recomendado	Recomendado
options = trainingOptions(solver, ... ExecutionEnvironment="multi-gpu", ... WorkerLoad=[1 1 0 1]);	% Alternative 1 pool = parpool(3); spmd if spmdIndex == 3 gpuDevice(spmdIndex + 1); else gpuDevice(spmdIndex); end end options = trainingOptions(solver, ... ExecutionEnvironment="multi-gpu"); % Alternative 2 % Set this environment variable immediately after your start MATLAB. setenv("CUDA_VISIBLE_DEVICES","0,1,3"); options = trainingOptions(solver, ... ExecutionEnvironment="multi-gpu");
options = trainingOptions(solver, ... ExecutionEnvironment="parallel", ... WorkerLoad=[1 1 0 1]);	pool = parpool(3); spmd if spmdIndex == 3 gpuDevice(spmdIndex + 1); else gpuDevice(spmdIndex); end end options = trainingOptions(solver, ... ExecutionEnvironment="parallel-auto");

No recomendado

Recomendado

options = trainingOptions(solver, ...
ExecutionEnvironment="multi-gpu", ...
WorkerLoad=[1 1 0 1]);

% Alternative 1
pool = parpool(3);

spmd
    if spmdIndex == 3
        gpuDevice(spmdIndex + 1);
    else
        gpuDevice(spmdIndex);
    end
end

options = trainingOptions(solver, ...
ExecutionEnvironment="multi-gpu");

% Alternative 2
% Set this environment variable immediately after your start MATLAB.
setenv("CUDA_VISIBLE_DEVICES","0,1,3");

options = trainingOptions(solver, ...
ExecutionEnvironment="multi-gpu");

options = trainingOptions(solver, ...
ExecutionEnvironment="parallel", ...
WorkerLoad=[1 1 0 1]);

pool = parpool(3);

spmd
    if spmdIndex == 3
        gpuDevice(spmdIndex + 1);
    else
        gpuDevice(spmdIndex);
    end
end

options = trainingOptions(solver, ...
ExecutionEnvironment="parallel-auto");

Si anteriormente usaba la opción WorkerLoad para reservar un worker para preprocesar sus datos, considere también preprocesar sus datos en segundo plano especificando la opción PreprocessingEnvironment como "background".

R2023b: Especificar los formatos de los datos de entrada y objetivo

Especifique los formatos de los datos de entrada y objetivo usando las opciones InputDataFormats y TargetDataFormats, respectivamente.

Esta opción solo admite la función trainnet.

R2023b: Entrenar una red neuronal en paralelo usando solo recursos de CPU o GPU

Entrene una red neuronal en paralelo usando recursos de hardware específicos indicando ExecutionEnvironment como "parallel-cpu" o "parallel-gpu".

Esta opción solo admite la función trainnet.

R2023b: El valor predeterminado de `BatchNormalizationStatistics` es `"auto"`

A partir de la versión R2023b, el valor predeterminado de la opción de entrenamiento BatchNormalizationStatistics es "auto".

Este cambio no afecta al comportamiento de la función. Si tiene código que comprueba la propiedad BatchNormalizationStatistics, actualícelo para tener en cuenta la opción "auto".

R2022b: `trainNetwork` rellena minilotes hasta la longitud de la secuencia más larga antes de dividirla cuando se especifica la opción de entrenamiento `SequenceLength` como un número entero

A partir de la versión R2022b, cuando se entrena una red neuronal con datos secuenciales utilizando la función trainNetwork y la opción SequenceLength es un número entero, el software rellena las secuencias hasta la longitud de la secuencia más larga en cada minilote y, luego, divide las secuencias en minilotes con la longitud de secuencia especificada. Si SequenceLength no divide uniformemente la longitud de la secuencia del minilote, entonces el último minilote dividido tiene una longitud más corta que SequenceLength. Este comportamiento evita el entrenamiento de la red neuronal en unidades de tiempo que contengan solo valores de relleno.

En versiones anteriores, el software rellena los minilotes de secuencias para que tengan una longitud que coincida con el múltiplo más cercano de SequenceLength que sea mayor o igual a la longitud del minilote y, luego, divide los datos. Para reproducir este comportamiento, utilice un ciclo de entrenamiento personalizado e implemente este comportamiento al preprocesar minilotes de datos.

R2018b: El valor predeterminado de la opción de entrenamiento `ValidationPatience` es `Inf`

A partir de la versión R2018b, el valor predeterminado de la opción de entrenamiento ValidationPatience es Inf, lo que significa que la detención automática mediante validación está desactivada. Este comportamiento evita que el entrenamiento se detenga antes de haber obtenido un aprendizaje suficiente de los datos.

En versiones anteriores, el valor predeterminado es 5. Para reproducir este comportamiento, establezca la opción ValidationPatience en 5.

Consulte también

trainnet | trainingOptions | dlnetwork

TrainingOptionsSGDM

Descripción

Creación

Propiedades

SGDM

MaxEpochs — Número máximo de épocas 30 (predeterminado) | entero positivo

MiniBatchSize — Tamaño de minilote de 128 (predeterminado) | entero positivo

Shuffle — Opción para cambiar el orden de los datos "once" (predeterminado) | "never" | "every-epoch"

InitialLearnRate — Tasa de aprendizaje inicial 0.01 (predeterminado) | escalar positivo

LearnRateSchedule — Programación de la tasa de aprendizaje "none" (predeterminado) | vector de caracteres | arreglo de cadena | objeto de programación de la tasa de aprendizaje integrado o personalizado | identificador de función | arreglo de celdas

Nombres de programación de la tasa de aprendizaje integrada

Objeto de programación de la tasa de aprendizaje integrado (desde R2024b)

Programación de la tasa de aprendizaje personalizada (desde R2024b)

Programaciones de la tasa de aprendizaje múltiples (desde R2024b)

LearnRateDropPeriod — Número de épocas para reducir la tasa de aprendizaje 10 (predeterminado) | entero positivo

LearnRateDropFactor — Factor para reducir la tasa de aprendizaje 0.1 (predeterminado) | escalar de 0 a 1

Momentum — Contribución del paso previo 0.9 (predeterminado) | escalar de 0 a 1

Disposición de datos

CategoricalInputEncoding — Codificación de entradas categóricas "integer" (predeterminado) | "one-hot"

CategoricalTargetEncoding — Codificación de objetivos categóricos "auto" (predeterminado) | "integer" | "one-hot"

InputDataFormats — Descripción de dimensiones de datos de entrada "auto" (predeterminado) | arreglo de cadena | arreglo de celdas de vectores de caracteres | vector de caracteres

TargetDataFormats — Descripción de dimensiones de datos objetivo "auto" (predeterminado) | arreglo de cadena | arreglo de celdas de vectores de caracteres | vector de caracteres

Monitorización

Plots — Gráficas que se desea visualizar durante el entrenamiento de red neuronal "none" (predeterminado) | "training-progress"

Metrics — Métricas para monitorizar [] (predeterminado) | vector de caracteres | arreglo de cadena | identificador de función | objeto deep.DifferentiableFunction (desde R2024a) | arreglo de celdas | objeto métrico

ObjectiveMetricName — Nombre de la métrica objetivo "loss" (predeterminado) | escalar de cadena | vector de caracteres

Verbose — Indicador para mostrar información sobre el progreso del entrenamiento 1 (true) (predeterminado) | 0 (false)

VerboseFrequency — Frecuencia de impresión detallada 50 (predeterminado) | entero positivo

Validación

ValidationData — Datos que desea usar para la validación durante el entrenamiento [] (predeterminado) | almacén de datos | tabla | arreglo de celdas | objeto minibatchqueue (desde R2024a)

Función trainnet

Función trainBERTDocumentClassifier (Text Analytics Toolbox)

ValidationFrequency — Frecuencia de la validación de la red neuronal 50 (predeterminado) | entero positivo

ValidationPatience — Paciencia de la detención de la validación Inf (predeterminado) | entero positivo

OutputNetwork — Red neuronal que se desea devolver cuando se completa el entrenamiento "auto" (predeterminado) | "last-iteration" | "best-validation"

Regularización y normalización

L2Regularization — Factor para regularización L2 0.0001 (predeterminado) | Escalar no negativo

ResetInputNormalization — Opción para restablecer la normalización de la capa de entrada 1 (true) (predeterminado) | 0 (false)

BatchNormalizationStatistics — Modo para evaluar estadísticas en capas de normalización de lotes "auto" (predeterminado) | "population" | "moving"

Recorte de gradiente

GradientThreshold — Umbral de gradiente Inf (predeterminado) | escalar positivo

GradientThresholdMethod — Método de umbral de gradiente "l2norm" (predeterminado) | "global-l2norm" | "absolute-value"

Secuencia

SequenceLength — Opción para rellenar o truncar secuencias "longest" (predeterminado) | "shortest" | entero positivo

SequencePaddingDirection — Dirección de relleno o truncado "right" (predeterminado) | "left"

SequencePaddingValue — Valor con el que rellenar secuencias de entrada 0 (predeterminado) | escalar

Hardware y aceleración

ExecutionEnvironment — Recurso de hardware para entrenar red neuronal "auto" (predeterminado) | "cpu" | "gpu" | "multi-gpu" | "parallel-auto" | "parallel-cpu" | "parallel-gpu"

PreprocessingEnvironment — Entorno para buscar y preprocesar datos "serial" (predeterminado) | "background | "parallel"

Acceleration — Optimización de rendimiento "auto" (predeterminado) | "none"

Puntos de control

CheckpointPath — Ruta para guardar las redes neuronales de puntos de control "" (predeterminado) | escalar de cadena | vector de caracteres

CheckpointFrequency — Frecuencia con la que se guardan redes neuronales de puntos de control 1 (predeterminado) | entero positivo

CheckpointFrequencyUnit — Unidad de frecuencia de punto de control "epoch" (predeterminado) | "iteration"

OutputFcn — Funciones de salida identificador de función | arreglo de celdas de identificadores de función

Ejemplos

Especificar las opciones de entrenamiento

Algoritmos

Gradiente descendente estocástico

Gradiente descendente estocástico con momento

Regularización L2

Recorte de gradiente

Referencias

Historial de versiones

R2025a: Especificar codificación numérica para entradas y objetivos categóricos

R2024b: Entrenar redes neuronales usando más programaciones de tasa de aprendizaje

R2024b: Monitorizar y representar más métricas durante el entrenamiento

R2024a: Especificar los datos de validación con un objeto minibatchqueue

R2024a: Optimización automática del rendimiento

R2024a: Especificar métricas como un objeto deep.DifferentiableFunction

R2024a: La opción de entrenamiento DispatchInBackground no está recomendada

R2024a: El valor predeterminado de OutputNetwork es "auto"

R2024a: El valor "best-validation-loss" de OutputNetwork no está recomendado

R2024a: El valor "parallel" de ExecutionEnvironment no está recomendado

R2024a: La opción de entrenamiento WorkerLoad no está recomendada

R2023b: Especificar los formatos de los datos de entrada y objetivo

R2023b: Entrenar una red neuronal en paralelo usando solo recursos de CPU o GPU

R2023b: El valor predeterminado de BatchNormalizationStatistics es "auto"

R2022b: trainNetwork rellena minilotes hasta la longitud de la secuencia más larga antes de dividirla cuando se especifica la opción de entrenamiento SequenceLength como un número entero

R2018b: El valor predeterminado de la opción de entrenamiento ValidationPatience es Inf

`MaxEpochs` — Número máximo de épocas
`30` (predeterminado) | entero positivo

`MiniBatchSize` — Tamaño de minilote de
`128` (predeterminado) | entero positivo

`Shuffle` — Opción para cambiar el orden de los datos
`"once"` (predeterminado) | `"never"` | `"every-epoch"`

`InitialLearnRate` — Tasa de aprendizaje inicial
`0.01` (predeterminado) | escalar positivo

`LearnRateSchedule` — Programación de la tasa de aprendizaje
`"none"` (predeterminado) | vector de caracteres | arreglo de cadena | objeto de programación de la tasa de aprendizaje integrado o personalizado | identificador de función | arreglo de celdas

`LearnRateDropPeriod` — Número de épocas para reducir la tasa de aprendizaje
`10` (predeterminado) | entero positivo

`LearnRateDropFactor` — Factor para reducir la tasa de aprendizaje
`0.1` (predeterminado) | escalar de `0` a `1`

`Momentum` — Contribución del paso previo
`0.9` (predeterminado) | escalar de `0` a `1`

`CategoricalInputEncoding` — Codificación de entradas categóricas
`"integer"` (predeterminado) | `"one-hot"`

`CategoricalTargetEncoding` — Codificación de objetivos categóricos
`"auto"` (predeterminado) | `"integer"` | `"one-hot"`

`InputDataFormats` — Descripción de dimensiones de datos de entrada
`"auto"` (predeterminado) | arreglo de cadena | arreglo de celdas de vectores de caracteres | vector de caracteres

`TargetDataFormats` — Descripción de dimensiones de datos objetivo
`"auto"` (predeterminado) | arreglo de cadena | arreglo de celdas de vectores de caracteres | vector de caracteres

`Plots` — Gráficas que se desea visualizar durante el entrenamiento de red neuronal
`"none"` (predeterminado) | `"training-progress"`

`Metrics` — Métricas para monitorizar
`[]` (predeterminado) | vector de caracteres | arreglo de cadena | identificador de función | objeto `deep.DifferentiableFunction` (desde R2024a) | arreglo de celdas | objeto métrico

`ObjectiveMetricName` — Nombre de la métrica objetivo
`"loss"` (predeterminado) | escalar de cadena | vector de caracteres

`Verbose` — Indicador para mostrar información sobre el progreso del entrenamiento
`1` (`true`) (predeterminado) | `0` (`false`)

`VerboseFrequency` — Frecuencia de impresión detallada
`50` (predeterminado) | entero positivo

`ValidationData` — Datos que desea usar para la validación durante el entrenamiento
`[]` (predeterminado) | almacén de datos | tabla | arreglo de celdas | objeto `minibatchqueue` (desde R2024a)

Función `trainnet`

Función `trainBERTDocumentClassifier` (Text Analytics Toolbox)

`ValidationFrequency` — Frecuencia de la validación de la red neuronal
`50` (predeterminado) | entero positivo

`ValidationPatience` — Paciencia de la detención de la validación
`Inf` (predeterminado) | entero positivo

`OutputNetwork` — Red neuronal que se desea devolver cuando se completa el entrenamiento
`"auto"` (predeterminado) | `"last-iteration"` | `"best-validation"`

`L2Regularization` — Factor para regularización L₂
`0.0001` (predeterminado) | Escalar no negativo

`ResetInputNormalization` — Opción para restablecer la normalización de la capa de entrada
`1` (`true`) (predeterminado) | `0` (`false`)

`BatchNormalizationStatistics` — Modo para evaluar estadísticas en capas de normalización de lotes
`"auto"` (predeterminado) | `"population"` | `"moving"`

`GradientThreshold` — Umbral de gradiente
`Inf` (predeterminado) | escalar positivo

`GradientThresholdMethod` — Método de umbral de gradiente
`"l2norm"` (predeterminado) | `"global-l2norm"` | `"absolute-value"`

`SequenceLength` — Opción para rellenar o truncar secuencias
`"longest"` (predeterminado) | `"shortest"` | entero positivo

`SequencePaddingDirection` — Dirección de relleno o truncado
`"right"` (predeterminado) | `"left"`

`SequencePaddingValue` — Valor con el que rellenar secuencias de entrada
`0` (predeterminado) | escalar

`ExecutionEnvironment` — Recurso de hardware para entrenar red neuronal
`"auto"` (predeterminado) | `"cpu"` | `"gpu"` | `"multi-gpu"` | `"parallel-auto"` | `"parallel-cpu"` | `"parallel-gpu"`

`PreprocessingEnvironment` — Entorno para buscar y preprocesar datos
`"serial"` (predeterminado) | `"background` | `"parallel"`

`Acceleration` — Optimización de rendimiento
`"auto"` (predeterminado) | `"none"`

`CheckpointPath` — Ruta para guardar las redes neuronales de puntos de control
`""` (predeterminado) | escalar de cadena | vector de caracteres

`CheckpointFrequency` — Frecuencia con la que se guardan redes neuronales de puntos de control
`1` (predeterminado) | entero positivo

`CheckpointFrequencyUnit` — Unidad de frecuencia de punto de control
`"epoch"` (predeterminado) | `"iteration"`

`OutputFcn` — Funciones de salida
identificador de función | arreglo de celdas de identificadores de función

Regularización L₂

R2024a: Especificar los datos de validación con un objeto `minibatchqueue`

R2024a: Especificar métricas como un objeto `deep.DifferentiableFunction`

R2024a: La opción de entrenamiento `DispatchInBackground` no está recomendada

R2024a: El valor predeterminado de `OutputNetwork` es `"auto"`

R2024a: El valor `"best-validation-loss"` de `OutputNetwork` no está recomendado

R2024a: El valor `"parallel"` de `ExecutionEnvironment` no está recomendado

R2024a: La opción de entrenamiento `WorkerLoad` no está recomendada

R2023b: El valor predeterminado de `BatchNormalizationStatistics` es `"auto"`

R2022b: `trainNetwork` rellena minilotes hasta la longitud de la secuencia más larga antes de dividirla cuando se especifica la opción de entrenamiento `SequenceLength` como un número entero

R2018b: El valor predeterminado de la opción de entrenamiento `ValidationPatience` es `Inf`