Inleiding auteur: "De ziel en de maan"
Inhoudsopgave:
Neuroengineers hebben een nieuw systeem gecreëerd dat eenvoudige gedachten in herkenbare spraak kan vertalen, met behulp van kunstmatige intelligentie en een spraaksynthesizer, volgens een studie die dinsdag is gepubliceerd.
Een team van onderzoekers in New York kon woorden reconstrueren met alleen hersenactiviteit, een innovatie die de weg kon banen voor hersengecontroleerde technologieën zoals, bijvoorbeeld, een smartphone die je gedachten in tekstberichten kan vertalen.
Dr. Nima Mesgarani, universitair hoofddocent aan Columbia University, leidde het onderzoek en vertelt omgekeerde dat hij een groot potentieel ziet om te helpen bij het herstel van spraak voor mensen die herstellen van een beroerte of die leven met amyotrofische laterale sclerose (ALS). Verderop in de lijn zou dit type technologie ook deuren kunnen openen naar hersenkoppelbare smartphones waarmee gebruikers met hun hoofd kunnen sms'en, maar dat is nog steeds een eind weg. Zijn werk werd gepubliceerd in het tijdschrift Wetenschappelijke rapporten.
"Een van de drijfveren van dit werk … is voor alternatieve mens-computer interactiemethoden, zoals een mogelijke interface tussen een gebruiker en een smartphone," zegt hij. "Dat is echter nog ver van de realiteit en op dit moment is de informatie die met niet-invasieve methoden kan worden geëxtraheerd niet goed genoeg voor een spraak-hersencomputerinterfacetoepassing."
Luister naar de spraak die wordt gegenereerd door de interface tussen de hersenen en de computer.
Om de nieuwe techniek te ontwikkelen, begonnen Mesgarani en zijn collega, Dr. Ashesh Dinesh Mehta van het Northwell Health Physician Partners Neuroscience Institute, met het onderzoeken van de hersenactiviteit van epilepsiepatiënten voor hun studie. Deze patiënten hadden al elektrode-implantaten in hun hersenen om aanvallen te controleren, die Mesgarani en Mehta konden gebruiken om gegevens voor hun onderzoek te verzamelen.
Het duo vroeg bereidwillige deelnemers om naar sprekers te luisteren, reciteerde de getallen tussen nul en negen, en registreerde vervolgens de hersensignalen van die interactie. Vervolgens hebben ze een neuraal netwerk getraind - een programma dat de neuronenstructuur in het menselijk brein imiteert - om patronen in de signalen te herkennen en deze te vertalen naar robotachtig klinkende woorden met behulp van een spraaksynthesizer, een vocoder genaamd.
Het resultaat was een korte stemclip van wat klinkt als Microsoft Sam die van nul tot negen telt. Het indrukwekkende deel is hoe duidelijk de spraak wordt vergeleken met andere methoden die de onderzoekers hebben getest. Er is echter nog heel wat werk aan de winkel.
"Het kan nog wel een decennium duren voordat deze technologie beschikbaar komt", zegt Mesgarani. "We hebben meer vooruitgang nodig, zowel op lange termijn, bio-compatibele implanteerbare elektroden en / of baanbrekende technologieën in niet-invasieve neurale opnamemethoden. We hebben ook een beter begrip nodig van hoe de hersenen spraak representeren, zodat we onze decoderingsmethoden kunnen verfijnen."
De patiënten die een deel van deze studie waren, hadden bijvoorbeeld allemaal een hersenoperatie om elektrocorticografiemonitors te implanteren. Dit is een uiterst invasief proces waarvoor open hersenchirurgie vereist is, iets dat de meeste mensen misschien niet willen ondergaan, ook al is er een mogelijkheid om een deel van hun spraakvermogen te herstellen.
Voor nu introduceerde deze studie een methode voor het decoderen van hersensignalen in spraak. Als we erachter komen hoe we hersenactiviteit accuraat kunnen detecteren zonder een operatie, zullen we een stap dichterbij zijn, niet alleen voor een revolutie in de logopedie, maar mogelijk ook voor het tot stand brengen van hersenkoppelbare smartphones.
Onderzoek naar hersen-computerinterfaces heeft de afgelopen jaren opnieuw belangstelling gekregen. In april 2017 kondigde Facebook aan dat het werkt aan een BCI tijdens zijn jaarlijkse F8-conferentie. En Elon Musk kondigde in november 2018 aan dat Neuralink, zijn eigen BCI-startup, aanwerven was.
Abstract
Auditieve stimulusreconstructie is een techniek die de beste benadering van de akoestische stimulus van de populatie van opgewekte neurale activiteit vindt. Reconstructie van spraak vanuit de menselijke auditieve cortex creëert de mogelijkheid van een spraakneuroprotheticum om een directe communicatie met de hersenen tot stand te brengen en is aangetoond dat dit mogelijk is in zowel openlijke als verkapte omstandigheden. De lage kwaliteit van de gereconstrueerde spraak heeft de bruikbaarheid van deze methode voor BCI-toepassingen (brain-computer interface) echter ernstig beperkt. Om de state-of-the-art in spraakneuroprothese te bevorderen, hebben we de recente vorderingen in deep learning gecombineerd met de nieuwste innovaties in spraaksynthese-technologieën om begrijpelijke spraak uit de menselijke auditieve cortex te reconstrueren. We onderzochten de afhankelijkheid van reconstructienauwkeurigheid bij lineaire en niet-lineaire (diepe neurale netwerk) regressiemethoden en de akoestische representatie die wordt gebruikt als het doelwit van de reconstructie, inclusief auditieve spectrogrammen en parameters voor spraaksynthese. Bovendien hebben we de reconstructienauwkeurigheid vergeleken met lage en hoge neurale frequentiebereiken. Onze resultaten tonen aan dat een diep neuraal netwerkmodel dat de parameters van een spraaksynthesizer direct van alle neurale frequenties schat, de hoogste subjectieve en objectieve scores op een cijferherkenningstaak bereikt, waardoor de verstaanbaarheid met 65% wordt verbeterd ten opzichte van de basislijnmethode die lineaire regressie gebruikte om reconstrueer het auditieve spectrogram. Deze resultaten demonstreren de effectiviteit van algoritmen voor diep leren en spraaksynthese voor het ontwerpen van de volgende generatie spraak-BCI-systemen, die niet alleen de communicatie voor verlamde patiënten kunnen herstellen, maar ook de potentie hebben om mens-computer interactietechnologieën te transformeren.
Gerelateerde video: Brain Wave Sensing Robots kunnen dienen als verlengstukken van het menselijk lichaam
YouTube, Facebook kan Extremistische spraak automatisch blokkeren in video's
In een poging extreme, gewelddadige, haatdragende toespraken op internet te blokkeren, implementeren Facebook en Google's YouTube stilletjes een systeem dat automatisch de verspreiding van extremistische visies veroorzaakt zonder het volledig te elimineren. Volgens twee bronnen die bekend zijn met het project en die met Reuters hebben gesproken, is de ...
De nieuwe blokfunctie van Reddit kan trollen en vrije spraak tegelijkertijd stoppen
Kijk, we weten allemaal dat Reddit vervelend kan zijn. De favoriete repository van het internet voor katten, culturele kritiek en online content heeft goede en slechte gebruikers, net als de rest van de mensheid. Vandaag heeft het onlineforum zijn functie "blokkeergebruiker" uitgebreid tot een black-out voor de hele site van het gezichtspunt van die persoon, wat int ...
Amazon Alexa's vaardigheid in de vaardigheid kan gesproken commando's vertalen naar G.E. Huishoudelijke apparaten
Amazon heeft vandaag een hele reeks nieuwe vaardigheden gelanceerd voor zijn virtuele assistent Alexa, en het zal snel zijn dat je alles in je huis zult regelen met alleen maar stemcommando's. Alexa kan je thermostaat al instellen, je lichten aanzetten of je Tesla-auto opladen via het Echo-luidsprekerplatform, dat ...