Google supercomputer AlphaGo Zero leert zichzelf ‘Go’ spelen en is meteen wereldkampioen

Een zelflerende computer van de afdeling ‘artificiële intelligentie’ DeepMind van Google heeft zichzelf geleerd om Go te spelen. Het complexe bordspel was blijkbaar niet moeilijk te doorgronden voor de computer, want in een match tegen ’s werelds beste speler won de computer makkelijk. 

Computers kunnen al langer schaken, dammen, of complexe bordspelen zoals Go, een oud Chinees strategisch spel. Zo’n 40 miljoen mensen spelen dat, er zijn 1.000 professionele spelers. Op zich is er niets nieuw aan computers die proberen een spelletje mee te spelen: het gaat om complexe wiskundige problemen met honderden opties snel uitrekenen. Zolang ze goed geprogrammeerd zijn, lukt dat aardig.

Wat DeepMind anders maakt, is dat het programma helemaal zelflerend is. De resultaten van het onderzoek werden nu gepubliceerd in Nature. In een eerste fase, twee jaar geleden, startte de computer met duizenden spelletjes tussen twee fantastisch goede menselijke spelers te bestuderen en te leren van de winnende zetten. Dat systeem noemden ze AlfaGo, en het was al erg succesvol.

Maar de nieuwste fase van het onderzoek was nog radicaler. Want met hun programma AlphaGo Zero kreeg de computer geen enkele info mee, behalve de spelregels en het doel van het spel. “Het leert het spel gewoon van telkens tegen zichzelf te spelen en zo beter te worden. Op die manier raakte de computer snel verder dan gelijk welk menselijk level. En op deze manier versloeg AlphaGo Zero ook z’n voorganger Alpha Go honderd keer op een rij”, zo legt Demis Hassabis, de baas van DeepMind uit. Hij stelde de resultaten voor samen met Lee Se-Dol, een bekende Go-speler, die in het stof moest bijten tegen AlphaGo Zero.

DeepMind creeërde dus expertise die niet uit de mens kwam, maar puur door artificiële intelligentie ontwikkeld werd. En die bleek veel effectiever, net omdat ze van een blanco blad starte. Go is op zich een bijzonder complex spelletje, met veel meer mogelijke zetten dan quasi elk ander spel. Maar het interessante is dat er geen toeval aan de pas komt: het is geen spel waarbij je geluk of ongeluk kan hebben. Dat is anders dan spelen met dobbelstenen of een kaartspel.

Op drie uur tijd kan AlphaGo Zero het niveau bereiken van een menselijke beginner, die de diepere strategie van het spel nog niet ziet. Maar na 19 uur heeft het systeem al de echt meer gevorderde zetten onder de knie. Na 70 uur leren zit AlphaGo Zero al aan een niveau dat ver boven de mens uitstijgt.

DeepMind wil nu die kennis gaan toepassen op echte complexe problemen, om zo te zien of computers die slimmer oplossen dan mensen. Over commerciële toepassingen wilde Google niet communiceren.

Meer
Lees meer...