Artificial Intelligence: AlphaGo Zero overtrumfer AlphaGo uden menneskelig viden

Artificial Intelligence: AlphaGo Zero overtrumfer AlphaGo uden menneskelig viden

(Billede: Google)

I den asiatiske strategi spil Go, har programmet AlphaGo Googles Deep Mind besejrede de stærkeste menneskelige professionelle spillere i år. En ny version har nu lært spillet uden menneskelig viden og spiller endnu mere.

Det så ud, som om det tema Gå efter AI opstart Deep Mind kryds i dette år: 60 online spil mod fagfolk vandt i januar, verdens nummer First Ke Jie besejret i maj et team af fem top professionelle ramte også i maj som er endnu ikke kommet? Under alle omstændigheder, en videnskabelig publikation, så meget Deep Mind havde efter 3: 0 sejr over Ke annonceret Jie om fremtiden for Summit Go.

Hvilket er nu der, og hun har det hele: I hendes essay "Mastering spillet af Go uden menneskelig viden" i det prestigefyldte videnskabelige tidsskrift Nature beskriver forskerholdet fra Deep Mind ikke bare den AlphaGo version, Ke Jie besejret, men en endnu nyere.

læring gennem leg

færdighedsniveauer Fire versioner var langt fra AlphaGo, den ene stærkere end den anden.(Billede: Google DeepMind)

Fire versioner af AlphaGo Deep Mind er nu én. De er alle baseret på en kombination af neurale netværk og træet søgeteknik Monte Carlo Tree Søg (MCTS); se også artiklen "vil strejke befolkningen i Go som Google AI - mystisk dybde" online c't. Mens de neurale netværk i de tre første versioner blev uddannet på millioner af positioner fra spil mellem stærke menneskelige spillere, som nu afsløret udgave AlphaGo Zero har lært spillet fra bunden, netop på grund af reglerne. Og hun har interne prøver "mester"Version af AlphaGo overskredet igen - mod mennesker, fordi de behøver ikke længere at konkurrere.

I stedet for to neurale netværk (Policy Network for forslag af gode bevægelser og Value Network til stillingen evaluering) har AlphaGo Zero kun én ting, men dette (med to output stier"Heads"), Levere den samme Flyt funktionen og position evaluering. Ved indgangen til det neurale netværk, kun den nøgne position er i, kun beriget med historien om de sidste otte tog og oplysningerne er der spiller på toget. Den go-specifikke forbehandling, som udviklerne havde de neurale netværk af tidligere versioner AlphaGo stadig hjulpet lidt på spring, er forbi. Ud over reglerne i farten kun symmetrien er en: rotationer og spejlinger af den samlede bestyrelse ændrer ikke spillet.

Tree søgning som en strategi forstærker

Selv MCTS algoritmen er blevet slanket: i stedet for spil at spille på et tidspunkt med en forsimplet tilfældig strategi for at afslutte spillet træet nu vokser kun i regi af det neurale netværk. MCTS anvender neurale netværk så kun som "strategi forstærker" under armene ved afprøvet et par tusinde varianter af mulige spil historier. Samtidig kan udledes fra outputtet af disse simulerede spil oplysninger om værdien af ​​besøgte positioner for at vinde.

Ud fra disse to ting det neurale netværk lærer nu, mens programmet spiller selv: sandsynlighedsfordelingen for indstillingen Flyt tilpasser resultaterne af søgning træet i den virkelige spil på så senere træ Søg starte med det samme med bedre strategier. Og den holdning evaluering af det neurale netværk er ens på resultaterne af de simulerede spil.

Fra abe til professionelle i tre dage

fremskridt Træning I tre dage AlphaGo er fra begyndere til professionelle - og så meget stærkere.(Billede: Google DeepMind)

I blot tre dage AlphaGo Zero nået så, startende fra helt tilfældige spil, der spilles under hver nybegynder niveau, faglige niveau og oversteg 2016 vandt mod Lee SEDOL versionen. Efter 21 dage var det på samme niveau som i år "mester"Version, efter 40 dage betydeligt højere.

Her AlphaGo Zero kommer med betydeligt mindre hardware end den første AlphaGo versionen, ikke mindst takket være den specielt udviklet som neurale netværk accelerator Google særlige chips TPU (Tensor Processing Unit). Kun en maskine med 4 TPU behov AlphaGo Zero; i den første version var der en klynge med mere end 1.000 CPU-kerner og 176 GPU'er.

Opdaget og kasseret

joseki AlphaGo Zero opdaget uafhængigt er en "joseki", En etableret sekvens af træk i hjørnet - og forkaster det igen efter nogen tid(Billede: Google DeepMind / Natur)

Forbløffende er det for go-faglært også at observere, hvordan AlphaGo Zero opdager de århundredgamle go-menneskelig viden på meget kort tid, måske i form af visse etablerede headways i nærheden af ​​hjørnerne, såkaldte Joseki - og disse derefter i yderligere læring kasserer tilbage til fordel tilsyneladende endnu bedre strategier. Det vil ikke være let at fordøje for Go-fagfolk: at se, hvordan en computer går gennem hele deres karriere inden for to dage og derefter vokser i samme tempo over dem.

outlook

Med AlphaGo Zero Deep Mind har gjort forbløffende: Det er ikke kun den nye stærkeste go spiller på denne planet, men har lært spillet kun på grund af reglerne og er vokset fra mennesker.

Og fordi hverken data ved menneskelige dele spilles endnu er modtaget nogen go-specifikke heuristik, chancerne er gode, at erfaringerne kan overføres til lignende spil: nulsumsspil med fuldstændige oplysninger. Men den højere mål af Deep Mind er ikke spil, men kunstig intelligens til de reelle problemer for menneskeheden - hvem ved, hvad denne forskning kan bidrage til at løse dem.(Harald Bögeholz) /(Bo)