Het nieuwe algoritme van MIT kan menselijke interacties voorspellen voordat ze ongemakkelijk worden

$config[ads_kvadrat] not found

De Voorspelbare Mens 5: Gedrag voorspellen en beïnvloeden

De Voorspelbare Mens 5: Gedrag voorspellen en beïnvloeden
Anonim

Ons onvermogen om andere mensen te lezen heeft geleid tot een aantal epische high five mislukkingen en gemiste kussen. Zelfs na een leven vol ervaring zijn menselijke interacties moeilijk te voorspellen. Maar onderzoekers van het Computer Science and Artificial Intelligence Laboratory van MIT denken dat ze kunnen helpen: met een nieuw algoritme voor diep leren dat kan voorspellen wanneer twee mensen elkaar zullen knuffelen, kussen, handen schudden of high five, hebben ze een grote stap gezet naar een toekomst gezegend verstoken van die ongemakkelijke momenten.

Ze hopen hun nieuwe algoritme - getraind op 600 uur aan YouTube-video's en tv-shows zoals Het kantoor, scrubs, Oerknaltheorie, en Desperate Housewives - kan worden gebruikt om minder sociaal lastige robots te programmeren en Google Glass-achtige headsets te ontwikkelen om acties voor ons te suggereren voordat we zelfs de kans hebben om te missen. In de toekomst stellen ze zich voor dat je nooit meer een kans maakt om high-five uit te brengen met je collega.

Het realiseren van het feit dat robots sociaal leren op dezelfde manier als wij, was de sleutel tot het succes van het algoritme. "Mensen leren automatisch te anticiperen op acties door ervaring, wat ons interesseerde om computers met hetzelfde soort gezond verstand te doordringen", zegt CSAIL Ph.D. student Carl Vondrick, de eerste auteur van een gerelateerd artikel dat deze week werd gepresenteerd op de Internationale Conferentie over Computer Vision en Patroonherkenning. "We wilden laten zien dat computers door het bekijken van grote hoeveelheden video voldoende kennis kunnen opdoen om consequent voorspellingen te doen over hun omgeving."

Vondrick en zijn team leerden de meerdere "neurale netwerken" van het algoritme om enorme hoeveelheden gegevens te analyseren in dit geval, uren van Jim en Pam's high five, en Mike en Susan's sluipkus kussen, op zichzelf. Rekening houdend met factoren zoals uitgestrekte armen, een opgeheven hand of een langdurige blik, raadde elk van de neurale netwerken wat er in de volgende seconde zou gaan gebeuren, en de algemene consensus van de netwerken werd als de laatste "voorspelling" in de toekomst genomen. studie.

Het algoritme heeft het meer dan 43 procent van de tijd goed gedaan. Hoewel dat misschien niet hoog genoeg lijkt om te garanderen dat onze dagelijkse interacties minder vreemd zullen zijn, is het een grote verbetering ten opzichte van bestaande algoritmen, die een nauwkeurigheid hebben van slechts 36 procent.

Bovendien kunnen mensen 71 procent van de tijd alleen acties voorspellen. We hebben alle hulp nodig die we kunnen krijgen.

In het tweede deel van het onderzoek werd het algoritme geleerd om te voorspellen welk object - binnenlandse sitcom-nietjes zoals afstandsbedieningen, borden en vuilnisbakken - vijf seconden later in de scène zouden verschijnen. Als een magnetrondeur bijvoorbeeld wordt geopend, is er een relatief grote kans dat een mok hierna verschijnt.

Hun algoritme is nog niet nauwkeurig genoeg voor Google Glass, maar met co-auteur Antonio Torralba, Ph.D. - gefinancierd door een Google-faculteitsprijs voor onderzoek en Vondrick die werkt met een Google Ph.D. gemeenschap - we kunnen er zeker van zijn dat het daar komt. Toekomstige versies van het algoritme, voorspelt Vondrick, kunnen worden gebruikt om robots te programmeren om met mensen om te gaan of zelfs beveiligingscamera's te leren registreren wanneer een persoon valt of gewond raakt.

"Een video is niet zoals een boek 'Choose Your Own Adventure' waarin je alle mogelijke paden kunt zien," zegt Vondrick. "De toekomst is inherent dubbelzinnig, dus het is opwindend om ons uit te dagen een systeem te ontwikkelen dat deze representaties gebruikt om te anticiperen op alle mogelijkheden."

$config[ads_kvadrat] not found