Robots leren hoe ze taken kunnen voltooien in versnelde virtuele werelden, en vaardigheden ontwikkelen in een paar uur die anders misschien maanden in beslag zouden nemen. Gesimuleerd deep reinforcement-leren (of Deep RL) betekent een vaardigheid die normaal gesproken 55 dagen zou duren voor een A.I. om te leren in de echte wereld duurt slechts een dag in het hyperversnelde klaslokaal.
"Het heeft het potentieel om echt een revolutie teweeg te brengen in wat we kunnen doen in het domein van de robotica," zei Raia Hadsell, een onderzoeker bij Google DeepMind, tijdens de Re-Work Deep Learning Summit in Londen op donderdag. "We kunnen vaardigheden op het menselijke niveau leren."
Het klinkt misschien contra-intuïtief, want zeker is het punt van robots dat programmeurs ze kunnen leren dingen te doen, toch? Bij het ontwerpen van een machine die in de echte wereld werkt, hebben robots echter heel veel gegevens nodig om te begrijpen hoe een taak moet worden gedaan in een onbekende situatie. A.I. kan deze gegevens gebruiken om een vaardigheid te "leren" op basis van alle eerdere gevallen.
Deep reinforcement learning verzamelt die gegevens op een vergelijkbare manier als hoe mensen leren: een robot zal een taak herhaaldelijk uitvoeren, zoals een bal vangen en de gegevens vastleggen om een beeld te krijgen van hoe je een bal het beste kunt vangen in een nieuwe situatie. Toen DeepMind het model in 2013 gebruikte om een robot te leren Atari-spellen onder de knie te krijgen, simpelweg door het voor het scherm neer te leggen en het het einddoel te vertellen, vond de wetenschappelijke gemeenschap het geweldig.
Het probleem is, dit duurt een eeuwigheid. Je moet herhaaldelijk ballen gooien naar een robot, of in de Atari-zaak, laat de robot een tijdje alleen in zijn slaapkamer. Met een MuJoCo-simulatie, gecombineerd met een progressief neuraal netwerk, kunnen trainers een programma uitvoeren dat de robot nabootst, het geleerde gedrag overdraagt aan de robot en de virtuele bewegingen in de echte wereld brengt.
"We kunnen die simulators de hele dag en de hele nacht laten werken," zei Hadsell.
De resultaten spreken voor zich. Deze robot, die zijn diploma in het vangen heeft behaald, kan nu virtuele ballen volgen alsof ze echt zijn, en voorbereid op de grote dag waarop een echte bal wordt gevraagd:
Een ongelooflijke nieuwe 3D-printer is 100X sneller dan wat mogelijk was: video
Al het 3D-printen heeft de neiging om op één hoop te worden gegooid, maar er zijn eigenlijk twee specifieke stijlen met een aantal behoorlijk belangrijke verschillen. Fused deposition modelling (FDM) is een snellere maar minder nauwkeurige methode die wordt verkregen door gelaagd plastic in een vorm te brengen. Stereolithography, (SLA), offert snelheid op voor precisie door usin ...
Waarom Reinforcement Learning Autonome auto's voor de massa zal ontgrendelen
In plaats van het programmeren van auto's om op elk mogelijk scenario te anticiperen, kunnen ingenieurs auto's programmeren om te leren navigeren in scenario's door middel van wapeningsleren.
'Smash Bros Ultimate' nieuwe personages kunnen sneller worden onthuld dan u denkt
Het is een maand geleden dat Nintendo's grote 'Super Smash Bros. Ultimate' onthuld werd op E3 2018, en de game zal niet officieel starten tot 7 december. Dat laat genoeg tijd over voor het bedrijf om alle eerder onaangekondigde personages te onthullen die naar de selectie, maar het lijkt erop dat de eerste nieuwe uitdagers co ...