dlfeval

Evaluar modelos de deep learning para bucles de entrenamiento personalizados

Sintaxis

[y1,...,yk] = dlfeval(fun,x1,...,xn)

Descripción

La función dlfeval evalúa modelos y funciones de deep learning con la diferenciación automática habilitada. Para calcular los gradientes, utilice la función dlgradient.

Sugerencia

Para la mayor parte de las tareas de deep learning, puede utilizar una red neuronal preentrenada y adaptarla a sus propios datos. Para ver un ejemplo de cómo usar la transferencia del aprendizaje para volver a entrenar una red neuronal convolucional para clasificar un nuevo conjunto de imágenes, consulte Volver a entrenar redes neuronales para clasificar nuevas imágenes. Como alternativa, puede crear y entrenar redes neuronales desde cero usando las funciones trainnet y trainingOptions.

Si la función trainingOptions no proporciona las opciones de entrenamiento que necesita para la tarea, puede crear un bucle de entrenamiento personalizado mediante diferenciación automática. Para obtener más información, consulte Entrenar una red con un bucle de entrenamiento personalizado.

Si la función trainnet no proporciona la función de pérdida que necesita para la tarea, puede especificar una función de pérdida personalizada para trainnet como identificador de función. Para las funciones de pérdida que requieren más entradas que las predicciones y los objetivos (por ejemplo, funciones de pérdida que requieren acceso a la red neuronal o entradas adicionales), entrene el modelo usando un bucle de entrenamiento personalizado. Para obtener más información, consulte Entrenar una red con un bucle de entrenamiento personalizado.

Si Deep Learning Toolbox™ no proporciona las capas que necesita para la tarea, puede crear una capa personalizada. Para obtener más información, consulte Definir capas de deep learning personalizadas. Para los modelos que no se pueden especificar como redes de capas, puede definir el modelo como una función. Para obtener más información, consulte Train Network Using Model Function.

Para obtener más información sobre qué método de entrenamiento usar para cada tarea, consulte Train Deep Learning Model in MATLAB.

[y1,...,yk] = dlfeval(fun,x1,...,xn) evalúa la función de arreglos de deep learning fun en los argumentos de entrada x1,...,xn. Las funciones pasadas a dlfeval pueden contener llamadas a dlgradient, que calculan los gradientes de las entradas x1,...,xn con diferenciación automática.

ejemplo

Ejemplos

contraer todo

Calcular gradientes usando diferenciación automática

Abrir script en vivo

La función de Rosenbrock es una función de prueba estándar para optimización. La función de ayuda rosenbrock.m calcula el valor de la función y usa la diferenciación automática para calcular su gradiente.

type rosenbrock.m

function [y,dydx] = rosenbrock(x)

y = 100*(x(2) - x(1).^2).^2 + (1 - x(1)).^2;
dydx = dlgradient(y,x);

end

Para evaluar la función de Rosenbrock y su gradiente en el punto [–1,2], cree un objeto dlarray del punto y, después, llame a dlfeval en el identificador de función @rosenbrock.

x0 = dlarray([-1,2]);
[fval,gradval] = dlfeval(@rosenbrock,x0)

fval = 
  1×1 dlarray

   104

gradval = 
  1×2 dlarray

   396   200

De manera alternativa, defina la función de Rosenbrock como una función de dos entradas, x1 y x2.

type rosenbrock2.m

function [y,dydx1,dydx2] = rosenbrock2(x1,x2)

y = 100*(x2 - x1.^2).^2 + (1 - x1).^2;
[dydx1,dydx2] = dlgradient(y,x1,x2);

end

Llame a dlfeval para evaluar rosenbrock2 en dos argumentos de dlarray que representan las entradas –1 y 2.

x1 = dlarray(-1);
x2 = dlarray(2);
[fval,dydx1,dydx2] = dlfeval(@rosenbrock2,x1,x2)

fval = 
  1×1 dlarray

   104

dydx1 = 
  1×1 dlarray

   396

dydx2 = 
  1×1 dlarray

   200

Represente el gradiente de la función de Rosenbrock para varios puntos en el cuadrado de la unidad. Primero, inicialice los arreglos que representan los puntos de evaluación y la salida de la función.

[X1 X2] = meshgrid(linspace(0,1,10));
X1 = dlarray(X1(:));
X2 = dlarray(X2(:));
Y = dlarray(zeros(size(X1)));
DYDX1 = Y;
DYDX2 = Y;

Evalúe la función en un bucle. Represente el resultado utilizando quiver.

for i = 1:length(X1)
    [Y(i),DYDX1(i),DYDX2(i)] = dlfeval(@rosenbrock2,X1(i),X2(i));
end
quiver(extractdata(X1),extractdata(X2),extractdata(DYDX1),extractdata(DYDX2))
xlabel('x1')
ylabel('x2')

Figure contains an axes object. The axes object with xlabel x1, ylabel x2 contains an object of type quiver.

Calcular gradientes que impliquen números complejos

Abrir script en vivo

Use dlgradient y dlfeval para calcular el valor y el gradiente de una función que implica números complejos. Puede calcular gradientes complejos o restringir los gradientes a solo números reales.

Defina la función complexFun, que se enumera al final de este ejemplo. Esta función implementa la siguiente fórmula compleja:

$f (x) = (2 + 3 i) x$

Defina la función gradFun, que se enumera al final de este ejemplo. Esta función llama a complexFun y usa dlgradient para calcular el gradiente del resultado con respecto a la entrada. Para la diferenciación automática, el valor para diferenciar, es decir, el valor de la función calculado a partir de la entrada, debe ser un escalar real, por lo que la función toma la suma de la parte real del resultado antes de calcular el gradiente. La función devuelve la parte real del valor de la función y del gradiente, que puede ser complejo.

Defina los puntos de muestra sobre el plano complejo entre -2 y 2 y -2 $i$ y 2 $i$ y conviértalos a dlarray.

functionRes = linspace(-2,2,100);
x = functionRes + 1i*functionRes.';
x = dlarray(x);

Calcule el valor de la función y del gradiente en cada punto de muestra.

[y, grad] = dlfeval(@gradFun,x);
y = extractdata(y);

Defina los puntos de muestra en los que mostrar el gradiente.

gradientRes = linspace(-2,2,11);
xGrad = gradientRes + 1i*gradientRes.';

Extraiga los valores del gradiente en esos puntos de muestra.

[~,gradPlot] = dlfeval(@gradFun,dlarray(xGrad));
gradPlot = extractdata(gradPlot);

Represente los resultados. Use imagesc para mostrar el valor de la función sobre el plano complejo. Use quiver para mostrar la dirección y la magnitud del gradiente.

imagesc([-2,2],[-2,2],y);
axis xy
colorbar
hold on
quiver(real(xGrad),imag(xGrad),real(gradPlot),imag(gradPlot),"k");
xlabel("Real")
ylabel("Imaginary")
title("Real Value and Gradient","Re$(f(x)) = $ Re$((2+3i)x)$","interpreter","latex")

El gradiente de la función es el mismo en todo el plano complejo. Extraiga el valor del gradiente calculado mediante diferenciación automática.

grad(1,1)

ans = 
  1×1 dlarray

   2.0000 - 3.0000i

Si la examina, la derivada compleja de la función tiene el valor

$\frac{df (x)}{dx} = 2 + 3 i$

Sin embargo, la función Re( $f (x)$ ) no es analítica y, por lo tanto, no se define ninguna derivada compleja. Para la diferenciación automática en MATLAB, el valor que se desea diferenciar debe ser siempre real y, por lo tanto, la función nunca puede ser analítica compleja. En su lugar, la derivada se calcula de modo que el gradiente devuelto apunte en la dirección del ascenso más pronunciado, tal como se ve en la gráfica. Esto se hace interpretando la función Re $(f (x))$ : C $\to$ R como una función Re $(f (x_{R} + i x_{I}))$ : R $\times$ R $\to$ R.

function y = complexFun(x)
    y = (2+3i)*x;    
end

function [y,grad] = gradFun(x)
    y = complexFun(x);
    y = real(y);

    grad = dlgradient(sum(y,"all"),x);
end

Argumentos de entrada

contraer todo

`fun` — Función que se desea evaluar
identificador de función

Función que se desea evaluar, especificada como identificador de función. Si fun incluye una llamada a dlgradient, dlfeval evalúa el gradiente usando la diferenciación automática. En esta evaluación del gradiente, cada argumento de la llamada a dlgradient debe ser un objeto dlarray o un arreglo de celdas, estructura o tabla que contenga un dlarray. El número de argumentos de entrada para dlfeval debe ser el mismo que el número de argumentos de entrada para fun.

Ejemplo: @rosenbrock

Tipos de datos: function_handle

`x1,...,xn` — Argumentos de funciones
cualquier tipo de datos de MATLAB^® | `dlnetwork`

Argumentos de funciones, especificados como cualquier tipo de datos de MATLAB o un objeto dlnetwork. Los objetos dlnetwork cuantificados no son compatibles.

Un argumento de entrada xj, que es una variable de diferenciación en una llamada a dlgradient, debe ser un objeto dlarray rastreado o un arreglo de celdas, estructura o tabla que contenga un dlarray rastreado. Una variable adicional, como un hiperparámetro o un arreglo de datos constante, no tiene que ser necesariamente un objeto dlarray.

Para evaluar gradientes para deep learning, puede proporcionar un objeto dlnetwork como un argumento de funciones y evaluar el pase hacia delante de la red dentro de fun.

Ejemplo: dlarray([1 2;3 4])

Argumentos de salida

contraer todo

`y1,...,yk` — Salidas de funciones
cualquier tipo de datos | `dlarray`

Salidas de funciones, devueltas como cualquier tipo de datos. Si la salida se genera a partir de una llamada a dlgradient, la salida es un objeto dlarray.

Sugerencias

Una llamada de dlgradient debe estar dentro de una función. Para obtener un valor numérico de un gradiente, debe evaluar la función utilizando dlfeval y el argumento de la función debe ser un objeto dlarray. Consulte Usar la diferenciación automática en Deep Learning Toolbox.
Para permitir la evaluación correcta de los gradientes, la función fun debe usar solo funciones que sean compatibles con dlarray. Consulte List of Functions with dlarray Support.
Para acelerar las llamadas a funciones de deep learning, como funciones de modelo y funciones de pérdida de modelo, puede utilizar la función dlaccelerate. La función devuelve un objeto AcceleratedFunction que optimiza, almacena en caché y reutiliza automáticamente los rastreos.

Algoritmos

contraer todo

Reproducibilidad

Para proporcionar el mejor rendimiento, no se garantiza que deep learning utilizando una GPU en MATLAB sea determinista. Según la arquitectura de su red, con ciertas condiciones puede obtener resultados diferentes al usar una GPU para entrenar dos redes idénticas o hacer dos predicciones utilizando la misma red y los mismos datos. Si requiere determinismo cuando realiza operaciones de deep learning con una GPU, use la función deep.gpu.deterministicAlgorithms (desde R2024b).

Si usa la función rng para establecer el mismo generador de números aleatorios y semilla, los bucles de entrenamiento personalizados que usan una CPU se pueden reproducir, a no ser que los datos de entrenamiento sean un objeto minibatchqueue con la propiedad PreprocessingEnvironment establecida en "background" o "parallel".

Capacidades ampliadas

expandir todo

Arreglos GPU
Acelere código mediante la ejecución en una unidad de procesamiento gráfico (GPU) mediante Parallel Computing Toolbox™.

La función dlfeval es compatible con entradas de arreglos de GPU con estas notas y limitaciones de uso:

dlfeval admite proporcionar x1,...,xn como un objeto gpuArray o como un dlarray que contiene un gpuArray.

Para obtener más información, consulte Run MATLAB Functions on a GPU (Parallel Computing Toolbox).

Historial de versiones

Introducido en R2019b

Consulte también

dlarray | dlgradient | dlnetwork | dlaccelerate

dlfeval

Sintaxis

Descripción

Ejemplos

Calcular gradientes usando diferenciación automática

Calcular gradientes que impliquen números complejos

Argumentos de entrada

fun — Función que se desea evaluar identificador de función

x1,...,xn — Argumentos de funciones cualquier tipo de datos de MATLAB® | dlnetwork

Argumentos de salida

y1,...,yk — Salidas de funciones cualquier tipo de datos | dlarray

Sugerencias

Algoritmos

Reproducibilidad

Capacidades ampliadas

Arreglos GPU Acelere código mediante la ejecución en una unidad de procesamiento gráfico (GPU) mediante Parallel Computing Toolbox™.

Historial de versiones

Consulte también

Temas

`fun` — Función que se desea evaluar
identificador de función

`x1,...,xn` — Argumentos de funciones
cualquier tipo de datos de MATLAB^® | `dlnetwork`

`y1,...,yk` — Salidas de funciones
cualquier tipo de datos | `dlarray`

Arreglos GPU
Acelere código mediante la ejecución en una unidad de procesamiento gráfico (GPU) mediante Parallel Computing Toolbox™.