Algorithmen und Technologie – Ärzteblatt klärt auf.
San Francisco –Ein neu entwickeltes Brain-Machine-Interface (BMI) kann natürlich klingende synthetische Sprache erzeugen. Dazu decodiert die Technik die neuronalen Signale, die die Bewegungen der Lippen, des Kiefers, der Zunge und des Kehlkopfs steuern. Die Neurowissenschaftler der University of California, San Francisco (UCSF) haben ihre ersten Versuche bei Studienteilnehmern mit intakter Sprache in Nature publiziert (2019; doi: 10.1038/s41586-019-1119-1).
Schlaganfall, traumatische Hirnverletzungen und neurodegenerative Erkrankungen wie Parkinson, Multiple Sklerose und amyotrophe Lateralsklerose führen oft zu einem irreversiblen Verlust der Sprachfähigkeit. Eines Tages könnte die neue Technologie diesen Menschen helfen, ihre Sprachfähigkeit wieder zu erlangen, sind die Studienautoren überzeugt.
Schon jetzt lernen einige Menschen mit schweren Sprachstörungen, ihre Gedanken Buchstabe für Buchstabe mit Hilfsmitteln, die kleinste Augen- oder Gesichtsmuskelbewegungen registrieren, auszudrücken. Die Textwiedergabe mit solchen Geräten sei jedoch mühsam, fehleranfällig und langsam, heißt es in einer Pressemitteilung der UCSF. Zudem erlaube diese Technik in der Regel maximal 10 Wörter pro Minute, während natürliche Sprache 100 bis 150 Wörtern pro Minute ermöglicht.
Laute aber auch Bewegungen müssen decodiert werden
Das neue BMI-System der UCSF, das im Labor von Edward Chang und Josh Cartier entwickelt wurde, zeigt, dass es möglich ist, eine synthetisierte Version der Stimme zu erstellen, die über die Sprachzentren des Gehirns gesteuert werden. Die Technik baut auf einer kürzlich durchgeführten Studie auf. In dieser hatten die Forscher beschrieben, wie die Sprachzentren des menschlichen Gehirns die Bewegungen der Lippen, des Kiefers, der Zunge und anderer Komponenten des Stimmwegs choreografieren, um eine flüssige Sprache zu erzeugen.
Die Beziehung zwischen den Bewegungen des Stimmtrakts und den erzeugten Sprachlauten sei kompliziert, sagte der Erstautor und Sprachwissenschaftler Gopala Anumanchipalli. „Wenn diese Sprachzentren im Gehirn eher Bewegungen als Geräusche codieren, sollten wir versuchen, das bei der Decodierung der Signale nachzuahmen.“
In ihrer neuen Studie baten die Forscher 5 Freiwillige, die im UCSF Epilepsy Center behandelt wurden, mehrere 100 Sätze laut vorzulesen. Währenddessen zeichneten vorübergehend subdural implantierte Elektroden (siehe Bild oben) die Aktivität aus den Sprachzentren auf. Diese Elektroden im Gehirn dienten dabei nicht primär dem Versuch, sondern waren Teil der Vorbereitung für einen neurochirurgischen Eingriff, um die Quelle der Epilepsieanfälle ausfindig zu machen.
Synthetische Stimme wird gut verstanden
Basierend auf den Audioaufnahmen der Stimmen der Teilnehmer haben die Forscher Klang und Anatomie einander zugeordnet. 2 Lernalgorithmen des neuronalen Netzwerks steuern die synthetische Stimme: ein Decoder, der die während der Sprache erzeugten Hirnaktivitätsmuster in Bewegungen des virtuellen Vokaltrakts umwandelt, und ein Synthesizer, der diese Bewegungen in eine synthetische Annäherung der Stimme des Teilnehmers umwandelt.
Die Algorithmen produzierten Sätze, die für Hunderte von menschlichen Zuhörern weitestgehend verständlich waren. Aus einer Auswahl von 25 Sätzen identifizierten sie 69 % der synthetisierten Wörter und transkribierten 43 % der Sätze perfekt.
„Wir haben noch einen langen Weg vor uns, um die gesprochene Sprache perfekt nachzuahmen“, sagt Chartier. Noch können nicht alle Laute gleichermaßen gut synthetisch widergegeben werden. „Wir sind ziemlich gut darin, langsamere Sprachsounds wie sh und z zu synthetisieren“, erklärt der Forscher vom Weill Institute for Neurosciences. Es gelänge ihnen auch gut, den Rhythmus, die Intonationen, das Geschlecht und die Identität des Sprechers beizubehalten. Hingegen bleiben Laute wie b und p noch unscharf.
In Zukunft könnte dieser Ansatz nicht nur die Kommunikation mit Menschen mit schwerer Sprachbehinderung wiederherstellen, sagen die Autoren, sondern auch einen Teil der Sprachmelodie der menschlichen Stimme reproduzieren, die die Emotionen und Persönlichkeit des Sprechers vermittelt. © gie/aerzteblatt.de
Was sagt Koj dazu?
Gehirnströme werden gemessen, während ein Satz formuliert wird und mit Hilfe eines Computers in künstliche Sprache umgewandelt. Ein absolut faszinierendes Projekt im Feld der Mensch-Maschine-Schnittstelle, das uns zeigt, wie gut die Wissenschaft bereits die Aktivität des Gehirns „lesen“ und auch umsetzten kann. Es zeigt aber auch die Komplexität der Sprache und dass der Teufel im Detail steckt. Diese feinen Sprachdetails sind es auch, die bei der Entwicklung von Hörimplantaten (Cochlea-Implantate) die grösste Herausforderung darstellen.