Hoe DeepMind een lugubere autodidact ontwikkelde A.I. Dat kan mensen te slim af zijn

$config[ads_kvadrat] not found

Test nu hoe slim jij bent. Beantwoord 5 vragen

Test nu hoe slim jij bent. Beantwoord 5 vragen

Inhoudsopgave:

Anonim

Computers schoppen nu al tientallen jaren onze fragiele menselijke ezels schaak. De eerste keer dat dit gebeurde was in 1996, toen IBM's Deep Blue wereldkampioen Gary Kasperov wist te verslaan. Maar een nieuwe studie van Alphabet's A.I. outfit DeepMind werpt licht op hoe beperkt de reikwijdte eigenlijk was.

Kasperov kaatste meteen terug, won drie wedstrijden en tekende tweemaal in een play-off van zes wedstrijden, per een oud speler Dagelijks nieuws verslag doen van.

Maar veel meer in het bijzonder, zoals DeepMind-onderzoeker Julian Schrittwieser vertelt omgekeerde, applicaties zoals Deep Blue werden ook handmatig geprogrammeerd. Dit betekent dat mensen de A.I. moesten leren. alles wat nodig was om te weten hoe om te gaan met elke denkbare onvoorziene gebeurtenis. Met andere woorden, het kon alleen maar zo goed zijn als de mensen die het programmeerden. En hoewel Deep Blue duidelijk goed in staat was om schaak te worden; geef het een ander, vergelijkbaar, spel zoals Go en het zou geen idee hebben gehad.

Alpha Zero is compleet anders. In een nieuwe studie die vandaag in het tijdschrift is gepubliceerd Wetenschap, de auteurs onthullen hoe ze in staat waren om Alpha Zero niet alleen te leren hoe mensen te verslaan bij schaken, maar hoe ze Alpha Zero leren hoe ze leren zichzelf meerdere spellen beheersen.

Hoe A.I. te onderwijzen Om zichzelf te onderwijzen

Alpha Zero is ontwikkeld met behulp van een techniek die deep reinforcement learning heet. In wezen houdt dit in het leren van de A.I. iets heel eenvoudigs, zoals de basisregels van schaken, en dan dat simpele ding keer op keer doen tot het meer gecompliceerde, interessante dingen zoals strategieën en technieken leert.

"Traditioneel … zouden mensen hun kennis over het spel gebruiken en proberen het in regels te coderen," zegt Schrittwieser, die al bijna vier jaar aan Alpha Zero werkt. "Onze aanpak is dat we willekeurig initialiseren en dan games tegen zichzelf laten spelen, en uit die games zelf kan leren welke strategieën werken."

Alles wat Alpha Zero krijgt, zijn de basisregels, en van daaruit leert het hoe te winnen door zichzelf te spelen. Volgens de nieuwe bevindingen duurde het slechts negen uur voordat Alpha Zero het schaken onder de knie had, 12 uur om Shogi onder de knie te krijgen en ongeveer 13 dagen om Go te beheersen. Omdat het zichzelf speelt, is het in wezen autodidactisch. Het is gehakt gemaakt van alle door de mens geleide algoritmen van de wereldkampioen en versloeg de Wereldkampioen 2017 in Shogi 91 procent van de tijd.

"Het kan zelfstandig interessante kennis over het spel ontdekken", zegt Schrittwieser. "Het leidt tot programma's die meer op mensen lijken."

Hoewel de stijl menselijk en creatief is, is hij waarschijnlijk ook optimaal, zegt hij, zodat Alpha Zero in vrijwel elke game waarin hij toegang heeft tot alle beschikbare informatie kan domineren. In feite is Alpha Zero zo geavanceerd dat we misschien naar een geheel andere klasse games moeten gaan om de grenzen van A.I. lost problemen op.

Waarom Alpa Zero zo goed is

A.I. onderzoekers houden om een ​​paar redenen van het gebruik van deze spellen als testterrein voor steeds geavanceerdere vormen van algoritmen. Ze zijn elegant en mensen spelen ze al honderden jaren, met andere woorden, wat betekent dat je veel potentiële uitdagers hebt om je algoritme te testen. Maar ze zijn ook gecompliceerd en ingewikkeld, wat betekent dat ze kunnen dienen als opstapje naar A.I. die problemen in de echte wereld kan oplossen. Schrittwieser zegt dat het volgende onderzoeksgebied het creëren van een algoritme zoals Alpha Zero is dat nog steeds optimale beslissingen kan nemen met imperfecte informatie.

"In al deze spellen weet je alles wat er gebeurt," zegt hij. "In de echte wereld weet je misschien maar een deel van de informatie. Je kent misschien je eigen kaarten, maar je kent je tegenstander niet, je hebt gedeeltelijke informatie."

Er zijn nog steeds een paar bordspellen die algoritmen zoals Alpha Zero een dergelijke uitdaging kunnen bieden - Schrittwieser noemde Stratego, waarin spelers hun bewegingen voor elkaar verbergen - en Starcraft, een ander interessegebied voor DeepMind's op gaming gerichte onderzoekers.

"We willen de problemen die we aanpakken steeds complexer maken", zegt hij. "Maar het is altijd één dimensie per keer."

Tegelijkertijd laat Deep Mind's volgende generatie van gecomputeriseerde probleemoplossers al het potentieel zien om van de spelwereld de echte wereld in te gaan. Eerder deze week kondigde het een ander algoritme aan, AlphaFold genaamd, dat in staat is om een ​​eiwitsequentie te extrapoleren naar een nauwkeurige voorspelling van zijn 3D-structuur.Het is een probleem dat al tientallen jaren verwarde wetenschappers is en zou kunnen helpen de deur te openen naar geneeswijzen voor ziekten die variëren van Alzheimer tot cystische fibrose.

$config[ads_kvadrat] not found