Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Subconjunto de aproximación de regresores para modelos GPR

El subconjunto del método de aproximación de regresores (SR) consiste en reemplazar la función del kernel k(x,xr|θ) en el por su aproximaciónmétodo GPR exacto k^SR(x,xr|θ,A), dado el conjunto activo AN={1,2,...,n}. Puede especificar el método SR para la estimación de parámetros mediante el argumento de par nombre-valor en la llamada a.'FitMethod','sr'fitrgp Para la predicción mediante SR, puede usar el argumento de par nombre-valor en la llamada a.'PredictMethod','sr'fitrgp

Aproximando la función del kernel

Para, la predicción esperada en GPR depende del conjunto deel modelo GPR exacto N Funciones SN={k(x,xi|θ),i=1,2,,n}Dónde N={1,2,...,n} es el conjunto de índices de todas las observaciones, y es el número total de observaciones.n La idea es aproximar el lapso de estas funciones por un conjunto más pequeño de funciones, SADónde AN={1,2,...,n} es el subconjunto de índices de puntos seleccionados para estar en el conjunto activo. Considerar SA={k(x,xj|θ),jA}. El objetivo es aproximar los elementos de SN como combinaciones lineales de los elementos de SA.

Supongamos que la aproximación a k(x,xr|θ) utilizando las funciones en SA es el siguiente:

k^(x,xr|θ)=jAcjrk(x,xj|θ),

Dónde cjr son los coeficientes de la combinación lineal para aproximar k(x,xr|θ). Supongo C es la matriz que contiene todos los coeficientes cjr. Entonces C, es un |A|×n matriz que C(j,r)=cjr. El software encuentra la mejor aproximación a los elementos de SN utilizando el conjunto activo AN={1,2,...,n} minimizando la función de error

E(A,C)=r=1nk(x,xr|θ)k^(x,xr|θ)2,

Dónde es el kernel de reproducción Hilbert Spaces (RKHS) asociado con la función del kernel,.k[1][2]

La matriz de coeficiente que minimiza E(A,C) Es

C^A= K(XA,XA|θ)1K(XA,X|θ),

y una aproximación a la función del kernel utilizando los elementos del conjunto activo AN={1,2,...,n} Es

k^(x,xr|θ)=jAcjrk(x,xj|θ)= K(xT,XA|θ)C(:,r).

La aproximación de SR a la función del kernel utilizando el conjunto activo AN={1,2,...,n} se define como:

k^SR(x,xr|θ,A)= K(xT,XA|θ)C^A(:,r)=K(xT,XA|θ)K(XA,XA|θ)1K(XA,xrT|θ)

y la aproximación SR a K(X,X|θ) Es:

K^SR(X,X|θ,A)=  K(X,XA|θ) K(XA,XA|θ)1 K(XA,X|θ).

Estimación de parámetros

Reemplazar K(X,X|θ) Por K^SR(X,X|θ,A) en la función marginal log verosimilitud produce su aproximación SR:

logPSR(y|X,β,θ,σ2,A)=12(yHβ)T[K^SR(X,X|θ,A)+σ2In]1(yHβ)N2log2π12log|K^SR(X,X|θ,A)+σ2In|

Como en el, el software estima los parámetros por primera computaciónmétodo exacto β^(θ,σ2), la estimación óptima de βDado θ Y σ2. A continuación, estima θY σ2 utilizando el β-la probabilidad de registro marginal perfilada. La estimación de SR para β para θY σ2 Es:

β^SR(θ,σ2,A)=[HT[K^SR(X,X|θ,A)+σ2In]1H*]1HT[K^SR(X,X|θ,A)+σ2In]1y**,

Dónde

[K^SR(X,X|θ,A)+σ2In]1=INσ2K(X,XA|θ)σ2AA1K(XA,X|θ)σ2,AA=K(XA,XA|θ)+K(XA,X|θ)K(X,XA|θ)σ2,*=HTHσ2HTK(X,XA|θ)σ2AA1K(XA,X|θ)Hσ2,**=HTyσ2HTK(X,XA|θ)σ2AA1K(XA,X|θ)yσ2.

Y la aproximación SR a la β-la probabilidad de registro marginal perfilada es:

logPSR(y|X,β^SR(θ,σ2,A),θ,σ2,A)=12(yHβ^SR(θ,σ2,A))T[K^SR(X,X|θ,A)+σ2In]1(yHβ^SR(θ,σ2,A))N2log2π12log|K^SR(X,X|θ,A)+σ2In|.

Predicción

La aproximación SR a la distribución de ynew Dado y, X, xnew Es

P(ynew|y,X,xnew)=N(ynew|h(xnew)Tβ+μSR,σnew2+ΣSR),

Dónde μSR Y ΣSR son las aproximaciones SR para μ Y Σ se muestra en.predicción utilizando el método GPR exacto

μSR Y ΣSR se obtienen reemplazando k(x,xr|θ) por su aproximación SR k^SR(x,xr|θ,A) En μ Y ΣRespectivamente.

Es decir

μSR=K^SR(xnewT,X|θ,A)(1)(K^SR(X,X|θ,A)+σ2 IN)1(2)(yHβ).

Desde

(1)=K(xnewT,XA|θ) K(XA,XA|θ)1K(XA,X|θ),

(2)=INσ2K(X,XA|θ)σ2[ K(XA,XA|θ)+K(XA,X|θ) K(X,XA|θ)σ2]1K(XA,X|θ)σ2, 

y del hecho de que IN B( A+ B)1= A( A+ B)1, μSR puede escribirse como

μSR= K(xnewT,XA|θ)[K(XA,XA|θ)+K(XA,X|θ)K(X,XA|θ)σ2]1K(XA,X|θ)σ2(yHβ).

Semejantemente ΣSR se deriva de la siguiente manera:

ΣSR=k^SR(xnew,xnew|θ,A)*K^SR(xnewT,X|θ,A)**(K^SR(X,X|θ,A)+σ2IN)1***K^SR(X,xnewT|θ,A)****.

porque

* = K(xnewT,XA|θ)K(XA,XA|θ)1K(XA, xnewT|θ),

**=K(xnewT,XA|θ)K(XA,XA|θ)1K(XA,X|θ),***=(2) in the equation of μSR,

**** = K(X,XA|θ)K(XA,XA|θ)1K(XA, xnewT|θ),

ΣSR se encuentra de la siguiente manera:

SR=K(xnewT,XA|θ)[ K(XA,XA|θ)+K(XA,X|θ) K(X,XA|θ))σ2]1K(XA, xnewT|θ).

Problema de varianza predictivo

Una de las desventajas del método SR es que puede dar desviaciones predictivas inrazonablemente pequeñas al realizar predicciones en una región alejada del conjunto activo elegido AN={1,2,...,n}. Considere la posibilidad de hacer una predicción en un nuevo punto xnew que está muy lejos del conjunto de entrenamiento X. En otras palabras, supongamos que K(xnewT,X|θ)0.

Para la GPR exacta, la distribución posterior de fnew Dado y, X Y xnew sería normal con la media μ=0 y la varianza Σ=k(xnew,xnew|θ). Este valor es correcto en el sentido de que, si xnew está lejos de X, los datos (X,y) no proporciona ninguna información nueva sobre fnew y por lo que la distribución posterior de fnew Dado y, XY xnew debe reducir a la distribución previa fnew Dado xnew, que es una distribución normal con media 0 y la varianza k(xnew,xnew|θ).

Para la aproximación SR, si xnew está muy lejos de X (y por lo tanto también muy lejos de XA), luego μSR=0 Y ΣSR=0. Así, en este caso extremo, μSR está de acuerdo con μ de GPR exacto, pero ΣSR es inrazonablemente pequeña en comparación con Σ de la GPR exacta.

El puede ayudar a evitar este problema.método de aproximación condicional totalmente independiente

Referencias

[1] Rasmussen, C. E. and C. K. I. Williams. Gaussian Processes for Machine Learning. MIT Press. Cambridge, Massachusetts, 2006.

[2] Smola, A. J. and B. Schökopf. Sparse greedy matrix approximation for machine learning. In Proceedings of the Seventeenth International Conference on Machine Learning, 2000.

Consulte también

|

Temas relacionados