Informacija

Postoje li konekcionistički modeli koji integriraju pojačanje i potpuno nadzirano učenje?

Postoje li konekcionistički modeli koji integriraju pojačanje i potpuno nadzirano učenje?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Radio sam na modeliranju nekih pojava koje uključuju kontrolu u stvarnom vremenu u okruženju s inherentnim nagradama (konkretno, igranje igre nalik na "pong"), a sve više izgleda da učenje pojačanja samo po sebi neće to računati računalo (ja Trenutno koristim vremensku razliku neuronske mreže za širenje unatrag).

Jedan od mogućih mehanizama dopunskog učenja je i da model predvidi buduće stanje okoliša iz kojeg može učiti na nadziran način koristeći standardno unaprijedno širenje unaprijed.

Moje trenutno razmišljanje o sintezi ovih mehanizama je da se ulazni sloj ubaci u skriveni sloj, koji se zatim dodaje u oba sloj za predviđanje nagrade i zasebni sloj za predviđanje stanja. Prilikom treniranja ove mreže, jednostavno mijenjam utege putem učenja za pojačanje, a zatim ih ponovno mijenjam kako bih uzeo u obzir pogrešku predviđanja stanja putem pomoćnog podupirača.

Dakle, moje pitanje je sljedeće: Postoje li problemi koje možete predvidjeti iz ove arhitekture? Osim toga, je li ta kombinacija mehanizama učenja već rađena i je li učinjena na sličan način?


Nisam siguran da potpuno razumijem vaš dizajn; možda možete pojasniti što želite da vaša mreža nauči, zašto TD učenje "ne reže" i što mislite pod učenjem "pojačanje" i "predviđanje". Konkretno, TD učenje je model učenja za pojačanje, i to čini nagrada na temelju predviđenih (a ne samo promatranih) ishoda. Međutim, čini se da opisujete učenje pojačanja i predviđanja kao ortogonalne modele, pa opet nisam siguran da dobro razumijem.

Kao opći prijedlog, razmislite o korištenju Elmanove/Jordanske mreže (npr. Ponavljajuća neuronska mreža/RNN). Umjesto da se oslanja na znanje samo o trenutnom stanju za predviđanje sljedećeg stanja, RNN može naučiti prepoznati nizove događaja. To je osobito korisno za predviđanje budućih stanja u zadatku koji se odvija tijekom vremena (npr. [1]). Predlažem ovo ponajviše zato što kažete da je vaš zadatak 'kontrola u stvarnom vremenu', ali bez više znanja o vašem zadatku ne znam je li to prikladno.

Što se tiče vašeg prijedloga korištenja dva različita mehanizma učenja za izmjenu jednog skupa utega- nemam odgovor, ali čini mi se da je to kontraintuitivno. Upotrebljavate dvije različite tehnike optimizacije na jednom skupu podataka. Ako se tehnike ne slažu, vaša mreža vjerojatno nikada neće saznati svoju težinu veze. Ako se slažu (tj. Konvergiraju na isti odgovor), onda nisam siguran da dodajete bilo kakvu vrijednost tako što imate dva mehanizma učenja.

[1] Elman (1990.). Pronalaženje strukture u vremenu. Kognitivna znanost, 14, 179-211. Preuzeto sa http://synapse.cs.byu.edu/~dan/678/papers/Recurrent/Elman.pdf


Gledaj video: Inventivni menadžer (Svibanj 2022).