Blog

Spracherkennung und Machine Learning: Masterarbeit bei PIXEL

05.09.2019
/ PIXEL / News / Tech
Moderne Deep Learning Architekturen haben das Feld der Spracherkennung revolutioniert. Mit der Entwicklung vieler neuer Methoden ist es häufig unklar, welcher Ansatz ideal ist für welches Szenario. Das Ziel dieser Masterarbeit war es, den besten Weg zu finden, eine Aussprache Lern-App auf einem Mobilgerät zu entwickeln, welche mithilfe von maschinellem Lernen genau die Aussprache der Nutzer bewerten kann.

In dieser Arbeit wurden die Vor- und Nachteile diverser moderner Architekturen verglichen in Anbetracht von Anforderungen wie der Genauigkeit, Robustheit und der Bedarf an Trainingsdaten und Rechenleistung. Zwei vielversprechende Architekturen wurden implementiert und miteinander verglichen. Bei den Architekturen handelt es sich um das Ende-zu-Ende Recurrent Neural Net Listen, Attend and Spell und das Open Source Projekt Mozilla DeepSpeech.

Um sequentielle Informationen wie etwa Texte, Musik- und Sprachaufnahmen in maschinellem Lernen zu verarbeiten, eignen sich besonders RNN - Recurrent Neural Networks. Für diese neuronalen Netze wird die Eingabe in kleine Schnipsel aufgeteilt, welche dann nacheinander für das Training verwendet werden. Dabei wird die Ausgabe des Netzwerks für jeden Unterabschnitt mit in die Eingabe für den nächsten Abschnitt übergeben. Somit bleiben dem Neuronalem Netz Informationen aus dem Anfang einer Sequenz bis in spätere Abschnitte im Gedächtnis.

Für die Spracherkennung wurden früher oft Programme entwickelt, die aus vielen kleineren Bausteinen bestanden, die alle eine bestimmte Aufgabe übernommen haben. Zum Beispiel gab es einen Baustein, der die Tonfrequenzen der Stimme einer Person in eine Mischung mehrerer einfachen Frequenzen aufgeteilt hat oder einen Baustein, der die Wahrscheinlichkeit berechnet hat, welche Phoneme in welcher Reihenfolge auftauchen können.

Seit Deep Learning dazu geführt hat, dass Spracherkennungsmodelle immer genauer werden können, tendiert die Architektur eher dazu dem Neuronalen Netz alle Schritte von A bis Z zu überlassen. Das vereinfacht die Architektur und reduziert die Menge an Expertenwissen, die benötigt wird. Der Nachteil dabei ist, dass dafür viel größere Mengen an Trainingsdaten benötigt werden. Für eine robuste Spracherkennung werden bis zu 10.000 Stunden saubere und sauber gelabelte Trainingsdaten benötigt. Dieser Bedarf an Trainingsdaten geht einher mit dem Bedarf an mehr Rechenleistung.

Um Machine Learning trotz dieser hohen Anforderungen und Kosten durchführen zu können, kann eine Methode namens Tranfer Learning eingesetzt werden. Wenn man bereits ein Spracherkennungsmodell zur Verfügung hat, welches mit vielen Daten und Rechenaufwand erstellt worden ist, kann man dieses als Grundlage verwenden, um mit eigenen Daten obendrauf zu trainieren. Dafür nimmt man ein bereits trainiertes Model, friert die anfänglichen Ebenen ein und trainiert die Gewichte gegen Ende mit den eigenen Daten um.

Für die Masterarbeit haben wir das englische Spracherkennungsmodel von Mozilla DeepSpeech genommen und dann mit französischen Daten trainiert. Das Ergebnis war ein französisches Model, welches sehr viel schneller und mit weniger Daten trainiert worden ist, als wenn man von Grund auf neu trainiert hätte. Der Nachteil war, dass für sehr seltene französische Wörter die Spracherkennung immer noch manchmal versucht hat, englische Wörter rauszuhören.

Wenn wir bedenken, welche Möglichkeiten noch vor uns liegen, wenn Computer anfangen wie Menschen sprechen und hören zu können, erklärt sich von selbst, warum in diesem Bereich so viel geforscht und entwickelt wird. Dem Staubsauger Befehle zu erteilen wie R2D2 oder Siri auch in einer lauten Umgebung nutzen zu können, sind beides Aufgaben in denen eine robuste Spracherkennung viel leisten könnte.

Nun stellt sich uns die Herausforderung wie man die Spracherkennung und Bewertung der Aussprache am besten nutzen kann, um Sprachschüler beim Lernen zu unterstützen. Falls du studierst und Interesse daran hast, eine Abschlussarbeit basierend auf dieser Spracherkennung zu schreiben, würden wir uns freuen wenn du dich bei uns meldest.

Weitere Informationen über uns und unsere Abschlussarbeiten findest du auf unserer Website unter: www.pixel.de/karriere