Pastiprinājuma mācīšanās

Ar pastiprināšanas mācīšanās bioloģiju var iepazīties vietnē Operant conditioning un Reward.

Pastiprināšanas mācīšanās (RL) ir programmatūras aģenta mācīšana, kā rīkoties vidē, norādot, cik labi tas rīkojas. Tā ir mašīnmācīšanās joma, ko iedvesmojusi biheivioristiskā psiholoģija.

Mācīšanās ar pastiprinājumu atšķiras no mācīšanās ar uzraudzību, jo nekad netiek parādītas pareizās ievades un izejas. Turklāt pastiprinājuma mācīšanās parasti notiek mācīšanās gaitā (mācīšanās tiešsaistē) atšķirībā no uzraudzītās mācīšanās. Tas nozīmē, ka aģentam ir jāizvēlas starp izpēti un palikšanu pie tā, ko tas zina vislabāk.

Ievads

Pastiprināšanas mācīšanās sistēma sastāv no politikas ( π {\displaystyle \pi }{\displaystyle \pi } ), atalgojuma funkcijas ( R {\displaystyle R}{\displaystyle R} ), vērtības funkcijas ( v {\displaystyle v}{\displaystyle v} ) un izvēles vides modeļa.

Polisē aģentam ir norādīts, kā rīkoties konkrētā situācijā. Tā var būt vienkārša noteikumu tabula vai sarežģīta pareizas rīcības meklēšana. Politika var būt pat stohastiska, kas nozīmē, ka noteikumu vietā politikā katrai darbībai tiek piešķirta varbūtība. Politika pati par sevi var likt aģentam kaut ko darīt, bet tā pati par sevi nevar mācīties.

Atlīdzības funkcija nosaka aģenta mērķi. Tā pieņem stāvokli (vai stāvokli un tajā veikto darbību) un atdod atpakaļ skaitli, ko sauc par atlīdzību un kas aģentam norāda, cik labi ir atrasties šajā stāvoklī. Aģenta uzdevums ir ilgtermiņā iegūt pēc iespējas lielāku atlīdzību. Ja darbība dod mazu atlīdzību, aģents nākotnē, iespējams, veiks labāku darbību. Bioloģija izmanto tādus atalgojuma signālus kā prieks vai sāpes, lai nodrošinātu, ka organismi paliek dzīvi un spēj vairoties. Atlīdzības signāli var būt arī stohastiski, līdzīgi kā spēļu automāts kazino, kur reizēm tie maksā, bet reizēm nē.

Vērtības funkcija norāda aģentam, cik lielu atlīdzību tas saņems, ievērojot politiku π {\displaystyle \pi }{\displaystyle \pi } , sākot no stāvokļa s {\displaystyle s}{\displaystyle s} . Tā parāda, cik vēlams ir atrasties noteiktā stāvoklī. Tā kā vērtības funkcija aģentam nav dota tieši, tam ir jāizdomā labs minējums vai aplēse, pamatojoties uz līdz šim saņemto atlīdzību. Vērtības funkcijas aplēse ir vissvarīgākā daļa lielākajā daļā pastiprinātas mācīšanās algoritmu.

Modelis ir aģenta mentālā vides kopija. To izmanto, lai plānotu turpmākās darbības.

To zinot, mēs varam runāt par pastiprinātas mācīšanās epizodes galveno cilpu. Aģents mijiedarbojas ar vidi diskrētos laika posmos. Iedomājieties to kā pulksteņa "tikšķi". Diskrētā laikā viss notiek tikai "tikšķu" un "tikšķu" laikā, bet ne starp tiem. Katrā laikā t = 0 , 1 , 2 , 3 , ... {\displaystyle t=0,1,2,3,... } {\displaystyle t=0,1,2,3,...}aģents novēro vides stāvokli S t {\displaystyle S_{t}}{\displaystyle S_{t}} un izvēlas darbību A t {\displaystyle A_{t}}{\displaystyle A_{t}} , pamatojoties uz politiku π {\displaystyle \pi } {\displaystyle \pi }. Nākamajā laika posmā aģents saņem atlīdzības signālu R t + 1 {\displaystyle R_{t+1}}{\displaystyle R_{t+1}} un jaunu novērojumu S t + 1 {\displaystyle S_{t+1}}. {\displaystyle S_{t+1}}. Vērtības funkciju v ( S t ) {\displaystyle v(S_{t})}{\displaystyle v(S_{t})} atjaunina, izmantojot atlīdzību. Tas turpinās, līdz tiek sasniegts gala stāvoklis S T {\displaystyle S_{T}} . {\displaystyle S_{T}}

Zoom



AlegsaOnline.com - 2020 / 2023 - License CC3