Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

El método exacto GPR

Una instancia de respuesta de un puede modelarse comoyEl modelo de regresión de proceso Gaussiano (GPR)

P(yi|f(xi),xi) ~N(yi|h(xi)Tβ+f(xi),σ2)

Por lo tanto, hacer predicciones para nuevos datos de un modelo GPR requiere:

  • Conocimiento del vector de coeficiente, β, de funciones de base fija

  • Capacidad para evaluar la función de covarianza k(x,x|θ) para la arbitraria x Y x, dados los parámetros del kernel o los hiperparámetros, θ.

  • El conocimiento de la varianza del ruido σ2 que aparece en la densidad P(yi|f(xi),xi)

Es decir, uno necesita primero estimar β, θY σ2 de los datos (X,y).

Estimación de parámetros

Un enfoque para estimar los parámetros β, θY σ2 de un modelo GPR es maximizando la probabilidad P(y|X) como una función de β, θY σ2.[1] Es decir, si β^, θ^Y σ^2 son las estimaciones de β, θY σ2, respectivamente, entonces:

β^,θ^,σ^2=arg maxβ,θ,σ2logP(y|X,β,θ,σ2).

porque

P(y|X)=P(y|X,β,θ,σ2)=N(y|Hβ,K(X,X|θ)+σ2In),

la función marginal log verosimilitud es la siguiente:

logP(y|X,β,θ,σ2)=12(yHβ)T[K(X,X|θ)+σ2In]1(yHβ)n2log2π12log|K(X,X|θ)+σ2In|.

Dónde H es el vector de las funciones de base explícita, y K(X,X|θ) es la matriz de la función de covarianza (para obtener más información, consulte).Modelos de regresión de proceso Gaussiano

Para estimar los parámetros, el software primero computa β^(θ,σ2), que maximiza la función log verosimilitud con respecto a β para θ Y σ2. A continuación, utiliza esta estimación para calcular el β-probabilidad de perfilado:

log{P(y|X,β^(θ,σ2),θ,σ2)}.

La estimación de β para θY σ2 Es

β^(θ,σ2)=[ HT[K(X,X|θ)+σ2In]1 H]1HT[K(X,X|θ)+σ2In]1 y.

Entonces, el β-la probabilidad de registro perfilada viene dada por

logP(y|X,β^(θ,σ2),θ,σ2)=12(yHβ^(θ,σ2))T[K(X,X|θ)+σ2In]1(yHβ^(θ,σ2))n2log2π12log|K(X,X|θ)+σ2In|

El software maximiza el β-log-verosimilitud perfilada sobre θY σ2 para encontrar sus estimaciones.

Predicción

Hacer predicciones probabilísticas de un modelo GPR con parámetros conocidos requiere la densidad P(ynew|y,X,xnew). Usando la definición de probabilidades condicionales, uno puede escribir:

P(ynew|y,X,xnew)=P(ynew,y|X,xnew)P(y|X,xnew).

Para encontrar la densidad de las articulaciones en el numerador, es necesario introducir las variables latentes fnew Y f correspondientes a ynewY yRespectivamente. A continuación, es posible utilizar la distribución conjunta para ynew, y, fnewY f para calcular P(ynew,y|X,xnew):

P(ynew,y|X,xnew)=P(ynew,y,fnew,f|X,xnew)dfdfnew=P(ynew,y|fnew,f,X,xnew)P(fnew,f|X,xnew)dfdfnew.

Los modelos de proceso Gaussiano asumen que cada respuesta yi sólo depende de la variable latente correspondiente fi y el vector de característica xi. Escritura P(ynew,y|fnew,f,X,xnew) como producto de las densidades condicionales y en base a esta suposición produce:

P(ynew,y|fnew,f,X,xnew)=P(ynew|fnew,xnew)i=1nP(yi|f(xi),xi).

Después de la integración con respecto a ynew, el resultado depende únicamente de f Y X:

P(y|f,X)=i=1nP(yi|fi,xi)=i=1nN(yi|h(xi)Tβ+fi,σ2).

por lo tanto

P(ynew, y|fnew, f, X, xnew)=P(ynew|fnew, xnew)P(y|f,X).

Una vez más usando la definición de probabilidades condicionales,

P(fnew,f|X,xnew)=P(fnew|f,X,xnew)*P(f|X,xnew),

es posible escribir P(ynew,y|X,xnew) como sigue:

P(ynew,y|X,xnew)=P(ynew|fnew, xnew)P(y|f,X)P(fnew|f,X,xnew)P(f|X,xnew)dfdfnew.

Utilizando los hechos que

P(f|X,xnew)=P(f|X)

Y

P(y|f,X)P(f|X)=P(y,f|X)=P(f|y,X)P(y|X),

uno puede reescribir P(ynew,y|X,xnew) como sigue:

P(ynew,y|X,xnew)=P(y|X)P(ynew|fnew, xnew)P(f|y,X)P(fnew|f,X,xnew)dfdfnew.

También es posible demostrar que

P(y|X,xnew)=P(y|X).

Por lo tanto, la densidad requerida P(ynew|y,X,xnew) Es:

P(ynew|y,X,xnew)=P(ynew,y|X,xnew)P(y|X,xnew)=P(ynew,y|X,xnew)P(y|X)=P(ynew|fnew, xnew)(1)P(f|y,X)(2)P(fnew|f,X,xnew)(3)dfdfnew.

Se puede demostrar que

(1)P(ynew|fnew,xnew)=N(ynew|h(xnew)Tβ+fnew,σnew2)

(2)P(f|y,X)=N(f|1σ2(Inσ2+K(X,X)1)1(yHβ),(Inσ2+K(X,X)1)1)

(3)P(fnew|f,X,xnew)=N(fnew|K(xnewT,X)K(X,X)1f,Δ),whereΔ=k(xnew,xnew)K(xnewT,X) K(X,X)1K(X,xnewT).

Después de la integración y el álgebra requerida, la densidad de la nueva respuesta ynew en un nuevo punto xnewDado y, X se encuentra como

P(ynew|y,X,xnew)=N(ynew|h(xnew)Tβ+μ,σnew2+Σ),

Dónde

μ=K(xnewT,X)(K(X,X)+σ2In)1(yHβ)α

Y

Σ=k(xnew,xnew)K(xnewT,X)(K(X,X)+σ2In)1K(X,xnewT).

El valor esperado de la predicción ynew en un nuevo punto xnew Dado y, X, y los parámetros β, θY σ2 Es

E(ynew|y, X,xnew,β,θ,σ2)= h(xnew)Tβ+ K(xnewT,X|θ)α= h(xnew)Tβ+i=1nαik(xnew,xi|θ),

Dónde

α=(K(X,X|θ)+σ2In)1(yHβ).

Complejidad computacional de estimación de parámetros exactos y predicción

La formación de un modelo GPR con el método exacto (cuando es) requiere la inversión de una matriz a-por-kernelFitMethod'Exact'nn K(X,X). El requisito de memoria para este paso se escala como O (^ 2) desden K(X,X) debe almacenarse en la memoria. Una evaluación de logP(y|X) escalas como O (^ 3).n Por lo tanto, la complejidad computacional es O (* ^ 3), donde es el número de evaluaciones de función necesarias para la maximización y es el número de observaciones.knkn

La realización de predicciones sobre nuevos datos implica el cálculo de α^. Si se desean intervalos de predicción, este paso también podría implicar el cálculo y almacenamiento del factor Cholesky de (K(X,X)+σ2In) para su uso posterior. La complejidad computacional de este paso mediante el cálculo directo de α^ es O (^ 3) y el requisito de memoria es O (^ 2).nn

Por lo tanto, para grandes, la estimación de parámetros o predicciones de computación puede ser muy costosa.n Los métodos de aproximación suelen implicar reorganizar el cómputo para evitar la inversión de una-por-matriz.nn Para los métodos de aproximación disponibles, consulte los enlaces relacionados en la parte inferior de la página.

Referencias

[1] Rasmussen, C. E. and C. K. I. Williams. Gaussian Processes for Machine Learning. MIT Press. Cambridge, Massachusetts, 2006.

Consulte también

|

Temas relacionados