I just videotaped all words that are contained in my active lexicon. You can see in the video …
Dictation under Ubuntu: 148 German words recognized correctly (32 MB, WMV, 12:58 minutes)
… how I dictate the following words (words that were recognized wrong are marked with an asterisk):
abnahmen Computer das Entfernung Entstehungen Ereignis Erlebnissen Gründern* Europas Globalisierung* extrem Fahrrads Fahrzeugen Fallen falsch Fausts Februar Feinden Fernsehers festgestellt Feuerwehr Finanzamts Finnlands Flaschen Fleischer Flugzeugen folgen Forschungen Fortschritten Fraktionen Frankfurtern Frankreichs Freiheiten Freitagen Friedhöfen Funktionen Fusionen Fußbällen Fußgängern Fähigkeiten Gaststätten gebaut gebildet gebildetem Geburtstagen Gedichten Gefängnissen Gegensatzes Gegenstands Gegenwart Geheimdiensten Geheimnissen Telefons* Gehältern Geistern Geldern gemeinsam Gemälden Genehmigungen Finnlands* Gerechtigkeit Gerichte geringem Geschenken Geschichten Geschmacks Geschwindigkeiten Geschäften Gesellschaften Gesetzgebers Gesichtern schlecht* Gestalten Gesundheit Gewichten Gewinnern Gewässern Globalisierung Grabes Gramms Grenzen Großmutter Großvater Grundgesetz Grundschulen Grundstücken Gräbern Gründern Gymnasiums Gänge Gärtner Gästen Göttern Haaren Hafens Hamburgern Handlung Handwerker Hannovers Hauptbahnhof Hauptstadt Haus Haushalten Heimat Herbst Flaschen* Herzog Hessens Gemälden* Hochzeiten Hoffnungen Horizonten Hubschraubern Hunger Häfen Hälften Höfen Identitäten Illusionen Indonesiens Informationen Initiativen Instrumenten ist Jahrhundert Kalifornien Transport* Geistern* Management natürlich neu neue niedrigem offiziell optimistisch organisiert positives Produkt Professor Schauspieler schlecht sehr Sicherheit Silvester Sonntag Technologie Telefons Termine Thailands Fahrzeugen* Transport unterhielt Wetter worden zeichnet Zeile Zuschauer Zweifel
I dictated all 158 words from the lexicon. The average length of each word is about 10 characters (it would be interesting to know: what is the average phoneme length?). I choose words that are mostly not too short to get a better recognition result.
How many of the words were recognized wrong? I have to count the asterisks (*). I counted ten asterisks. That means: 148 words out of 158 were recognized correctly. Or about 93 % of the dictated words were recognized correctly.
I think that from now on, 93 % recognition rate should be the lower bound. I hope that the recognition rate doesn’t drop when I add more words to the active vocabulary.
What will I have to do? I will take a closer look at the triphones. You want to know how they look like? Just open the file wintri.mlf e.g. with Notepad++.