Die Entwicklung der Spracherkennungstechnologie.

Die Entwicklung der Spracherkennungstechnologie.
Erinnern Sie sich, als Sie die Idee von KITT, dem sprechenden Auto aus Knight Rider, erneut umgehauen hat? Oder als Blade Runner Eric Decker seinem Computer mündlich befahl, Fotos von Tatorten zu verbessern? Die Idee, von einem Computer verstanden zu werden, erschien ziemlich futuristisch, ganz zu schweigen von einem, der Ihre Fragen beantworten und Ihre Befehle verstehen könnte. Über den Autor Graeme John Cole ist Autor von Rev, dem Erfinder der weltweit genauesten automatischen Spracherkennungsmaschine Rev.ai. Heute tragen wir alle KITT in unseren Taschen. Wir seufzen, als KITT in der Bank ans Telefon geht. Die Persönlichkeit ist noch nicht da, aber Computer können die Wörter, die wir sprechen, nahezu perfekt erkennen. Michael Knight, der Knight-Rider-Held, der sich mit seinem intelligenten Auto zusammengetan hat, um die Kriminalität zu bekämpfen, war 1982 skeptisch, ob KITT seine Fragen verstehen konnte. Die Entwicklung der Spracherkennungstechnologie war jedoch bereits seit den 1950er Jahren im Gange. Nachfolgend erfahren Sie, wie sich diese Technologie weiterentwickelt hat die Jahre. Und wie sich unsere Art und Weise, Spracherkennung und Text-to-Speech-Funktionen zu nutzen, mit der Technologie weiterentwickelt hat.

IBM-Schuhkarton

(Bildnachweis: IBM)

Die ersten Abhörcomputer, 1950-1980

Die Leistungsfähigkeit der automatischen Spracherkennung (ASR) bedeutet, dass ihre Entwicklung schon immer mit großen Namen in Verbindung gebracht wurde. Bell Laboratories war 1952 mit AUDREY führend. Das AUDREY-System erkannte gesprochene Zahlen unter sorgfältig kontrollierten Bedingungen mit einer Genauigkeit von 97 bis 99 %. Doch laut James Flanagan, einem Wissenschaftler und ehemaligen Elektroingenieur von Bell Labs, saß AUDREY auf „einem sechs Fuß hohen Relaishalter, der beträchtliche Energie verbrauchte und die unzähligen Wartungsprobleme aufwies, die mit der komplexen Schaltung der Relais verbunden waren.“ leer Röhren". AUDREY war selbst für spezielle Anwendungsfälle zu teuer und unpraktisch. IBM folgte 1962 mit der Shoebox, die Zahlen und einfache mathematische Begriffe erkannte. In dieser Zeit entwickelten japanische Laboratorien die Vokal- und Phonemerkennung sowie den ersten Sprachabschnitt. Für einen Computer ist es eine Sache, einen kleinen Zahlenbereich (z. B. 0-9) zu verstehen, aber der Durchbruch der Universität Kyoto bestand darin, eine Sprachzeile zu „segmentieren“, sodass die Technologie mit einer Vielzahl gesprochener Laute arbeiten konnte. In den 1970er Jahren finanzierte das Verteidigungsministerium (DARPA) das Programm Speech Understanding Research (SUR). Zu den Ergebnissen dieser Forschung gehörte das Spracherkennungssystem HARPY von Carnegie Mellon. HARPY erkannte Sätze aus einem Wortschatz von 1.011 Wörtern und verlieh dem System damit die Leistungsfähigkeit eines durchschnittlichen Dreijährigen. Als ich drei Jahre alt war, war die Spracherkennung jetzt großartig und hatte Potenzial, aber im Büro wollte man sie nicht haben. HARPY war einer der ersten, der Hidden-Markov-Modelle (HMM) verwendete. Diese probabilistische Methode führte in den 1980er Jahren zur Entwicklung von ASR. Tatsächlich erschienen in den 1980er Jahren mit dem experimentellen Transkriptionssystem Tangora von IBM die ersten realisierbaren Anwendungsfälle für Text-to-Speech-Tools. Mit der richtigen Ausbildung könnte Tangora 20.000 englische Wörter erkennen und schreiben. Allerdings war das System für den kommerziellen Einsatz noch zu schwer.

ASR auf Verbraucherebene von den 1990er bis 2010er Jahren

„Wir hielten es für falsch, von einer Maschine zu verlangen, dass sie Menschen nachahmt“, erinnert sich Fred Jelinek, ein Erfinder der Spracherkennung bei IBM. „Wenn sich eine Maschine fortbewegen muss, dann auf Rädern und nicht zu Fuß. Anstatt eingehend zu untersuchen, wie Menschen Sprache hören und verstehen, wollten wir den natürlichen Weg finden, auf dem die Maschine dies tun kann. Die statistische Analyse war nun die treibende Kraft hinter der Entwicklung der ASR-Technologie. 1990 wurde Dragon Dictate als erste kommerzielle Spracherkennungssoftware veröffentlicht. Es kostet 9,000 Euro, im Jahr 18,890 rund 2021 Euro, inklusive Inflation. Bis zur Veröffentlichung von Dragon Naturally Speaking im Jahr 1997 mussten Benutzer zwischen den einzelnen Wörtern noch eine Pause einlegen. Im Jahr 1992 führte AT&T den Voice Recognition Call Processing (VRCP)-Dienst von Bell Labs ein. VRCP verarbeitet mittlerweile etwa 1.200 Milliarden Sprachtransaktionen pro Jahr. Doch die meiste Arbeit an der Spracherkennung fand in den 1990er Jahren im Verborgenen statt. Personal Computing und das allgegenwärtige Web haben neue Innovationsperspektiven geschaffen. Das war die Chance, die Mike Cohen entdeckte, der 2004 zu Google kam, um die Sprachtechnologiebemühungen des Unternehmens zu starten. Google Voice Search (2007) machte die Spracherkennungstechnologie der breiten Masse zugänglich. Aber es recycelte auch Sprachdaten von Millionen von Netzwerkbenutzern als Schulungsmaterial für maschinelles Lernen. Und es verfügte über die Verarbeitungslast von Google, um die Qualität zu verbessern. Apple (Siri) und Microsoft (Cortana) folgten, um im Spiel zu bleiben. In den frühen 2010er Jahren führte das Aufkommen von Deep Learning, rekurrenten neuronalen Netzen (RNNs) und Langzeitgedächtnis (LSTM) zu einem hyperräumlichen Sprung in den Fähigkeiten der ASR-Technologie. Diese Vorwärtsdynamik wurde in großem Maße auch durch den Aufstieg und die zunehmende Verfügbarkeit kostengünstiger Computer sowie massive Fortschritte bei der Algorithmen angetrieben.

Screenshot der WWDC 2021

(Bildnachweis: Apple)

Der aktuelle Stand von ASR

Aufbauend auf jahrzehntelanger Entwicklung und als Reaktion auf steigende Benutzererwartungen hat die Spracherkennungstechnologie im letzten halben Jahrzehnt weitere Fortschritte gemacht. Lösungen zur Optimierung der variablen Audiotreue und anspruchsvoller Hardwareanforderungen erleichtern die Spracherkennung für den täglichen Einsatz in der Sprachsuche und im Internet der Dinge. Intelligente Lautsprecher nutzen beispielsweise die Schlüsselworterkennung, um mithilfe eingebetteter Software sofortige Ergebnisse zu liefern. Während dieser Zeit wird der Rest des Satzes zur Verarbeitung an die Cloud gesendet. Der VoiceFilter-Lite von Google optimiert die Sprache einer Person am Ende der Transaktion auf dem Gerät. Dadurch können Verbraucher ihr Gerät mit ihrer Stimme „trainieren“. Durch Training wird das Source-Distortion-Ratio (SDR) reduziert und die Benutzerfreundlichkeit sprachaktivierter Hilfsanwendungen verbessert. Die Wortfehlerrate (WER, der Prozentsatz falscher Wörter, die während eines Sprache-zu-Text-Konvertierungsprozesses auftreten) wird erheblich verbessert. Wissenschaftler gehen davon aus, dass bis Ende der 2020er Jahre 99 % der Transkriptionsarbeiten automatisiert sein werden. Menschen werden nur für die Qualitätskontrolle und Korrekturen eingreifen.

ASR-Anwendungsfälle in den 2020er Jahren

Die ASR-Fähigkeit verbessert sich im Einklang mit den Entwicklungen im Netzwerkzeitalter. Hier sind drei überzeugende Anwendungsfälle für die automatisierte Spracherkennung. Die Podcasting-Branche wird im Jahr 2021 die Milliarden-Dollar-Marke überschreiten. Die Zuschauerzahlen schießen in die Höhe und die Worte kommen immer wieder. Podcast-Plattformen suchen nach ASR-Anbietern mit hoher Präzision und Wortstempeln, um Menschen dabei zu helfen, Podcasts einfacher zu erstellen und den Wert ihrer Inhalte zu maximieren. Anbieter wie Descript wandeln Podcasts in Texte um, die schnell bearbeitet werden können. Darüber hinaus sparen wortbasierte Zeitstempel Zeit, da der Redakteur den fertigen Podcast wie Ton formen kann. Diese Transkripte machen Inhalte auch für alle Zielgruppen zugänglicher und helfen den Erstellern, die Suche und Auffindbarkeit ihrer Sendungen durch SEO zu verbessern. Heutzutage finden immer mehr Meetings online statt. Und auch diejenigen, die nicht oft dabei sind, melden sich. Ein paar Minuten Zeit zu nehmen ist teuer und zeitaufwändig. Aber Besprechungsnotizen sind für Teilnehmer ein wertvolles Hilfsmittel, um eine Zusammenfassung zu erhalten oder ein Detail zu überprüfen. Die ASR-Übertragung bietet Sprachsynthese in Echtzeit. Dies bedeutet eine einfache Untertitelung oder Live-Transkription für Meetings und Seminare. Prozesse wie gerichtliche Aussagen, Einstellung usw. Gehen Sie virtuell. ASR kann dazu beitragen, diese Videoinhalte zugänglicher und ansprechender zu machen. Aber was noch wichtiger ist: End-to-End-Modelle (E2E) für maschinelles Lernen (ML) verbessern die Sprecherregistrierung weiter: die Aufzeichnung, wer anwesend ist und wer was gesagt hat. In Hochrisikosituationen ist Vertrauen in die Werkzeuge unerlässlich. Eine zuverlässige Speech-to-Text-Engine mit extrem niedrigem WER beseitigt Zweifel und reduziert die Zeit, die für die Erstellung endgültiger Dokumente und die Entscheidungsfindung erforderlich ist.

Aktenkundig

Glauben Sie, dass Knight Industries jemals das Protokoll der Gespräche zwischen KITT und Michael ausgewertet hat, um die Effizienz zu verbessern? Vielleicht nicht. Aufgrund der jüngsten Umstellung auf Heimarbeit finden unsere Gespräche jedoch immer häufiger online oder am Telefon statt. Die hochpräzise Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) in Echtzeit gibt uns Macht über unsere Worte. Fügen Sie jeder Interaktion einen Mehrwert hinzu. Die Tools sind nicht mehr nur großen Namen wie IBM und DARPA vorbehalten. Sie stehen Verbrauchern, Unternehmen und Entwicklern zur Verfügung, um sie nach eigenem Ermessen zu nutzen, da die Spracherkennungstechnologie danach strebt, die Versprechen der Science-Fiction zu übertreffen. Interessiert an Spracherkennung? Entdecken Sie unsere Zusammenfassung der besten Text-to-Speech-Software