Algoritme dat 'Pong' beheerste, nu uitstekend bij 'Flappy Bird', nog steeds single

$config[ads_kvadrat] not found

Alexander Klöpping over een revolutionair algoritme dat teksten kan schrijven als een mens. | Op1

Alexander Klöpping over een revolutionair algoritme dat teksten kan schrijven als een mens. | Op1
Anonim

Verbetering van een diepgaande leermethode waarvoor is gepionierd pong, Space Invaders, en andere Atari-games, Stan Chen University, computerwetenschapstudent Kevin Chen, heeft een algoritme ontwikkeld dat redelijk goed is in de klassieke side-scroller 2014 Flappy Bird. Chen heeft een concept gebruikt dat bekendstaat als "q-learning", waarbij een agent zijn beloningsscore wil verbeteren met elke iteratie van het spelen, om een ​​bijna onmogelijk en onmogelijk verslavend spel te perfectioneren.

Chen creëerde een systeem waarin zijn algoritme werd geoptimaliseerd om drie beloningen te zoeken: een kleine positieve beloning voor elk frame dat hij in leven hield, een grote beloning voor het passeren van een pijp, en een even grote (maar negatieve) beloning voor sterven. Zo gemotiveerd, kan het zogenaamde deep-q-netwerk mensen overtreffen, volgens het rapport dat Chen schreef: "We waren in staat om met succes het spel te spelen Flappy Bird door direct te leren van de pixels en de score, door supermenselijke resultaten te behalen."

Het originele Atari-papier, gepubliceerd in 2015 in Natuur, kwam van het bedrijf DeepMind dat eigendom is van Google (nu beroemd vanwege zijn beheersing van het oude Chinese bordspel Go). De DeepMind prestatie was een doorbraak in die zin dat het visuele - of pixel, tenminste - informatie vergde, en met minimale input maximalisatie van de beloningen mogelijk maakte. Een dergelijk beloningssysteem is vergeleken met de dopaminerge reactie van de hersenen, alleen vereenvoudigd.

Het is niet de eerste keer dat een algoritme de fladderende vogel heeft overwonnen: een eerdere klas van computerwetenschappers van de Stanford University creëerde een programma dat, toen het 's nachts werd getraind, verbeterde van 0 naar 1.600.

$config[ads_kvadrat] not found