Vor der digitalen Ära waren flinke Finger für die Schreibmaschine gefragt. Heute braucht es smarte Software, um Gesprochenes zu Papier zu bringen.

CYANO66 / ISTOCK / GETTY IMAGES PLUS

Vor der digitalen Ära waren flinke Finger für die Schreibmaschine gefragt. Heute braucht es smarte Software, um Gesprochenes zu Papier zu bringen.

CYANO66 / ISTOCK / GETTY IMAGES PLUS

Chefinfo

Work smart, not hard

18.12.2023 um 09:25, Klaus Schobesberger

min read

Speech-to-Text-Lösungen haben in den letzten Monaten einen deutlichen Qualitätssprung verzeichnet. CHEFINFO sah sich das Programm des Startups AudioIndex an.

Lore Alt galt als schnellste Sekretärin der Welt. Die Deutsche schaffte mehr als 16.000 Anschläge in 30 Minuten und gewann damit 1955 den ersten Weltmeistertitel im Schnellschreiben auf einer mechanischen Schreibmaschine. Gut 70 Jahre später sind Schreibmaschinen gefragte Objekte für Sammler und wir werden von digitalen Audio- und Videomitschnitten erschlagen. Teilnehmer von Videokonferenzen, Kongressen oder Besprechungen wollen die Aufzeichnungen schriftlich haben. Statt Schnellschreibern sind Softwaredesigner gefragt, die mit Speech-to-Text-KI automatisierte Transkriptionen anbieten. Motto: Work smart, not hard.

Hohe Trefferquote
Anwender können inzwischen staunend miterleben, welche Fortschritte Machine Learning, Audioanalyse & Natural Language Processing im Alltag gemacht haben. CHEFINFO hat das AI-Transkriptions-Tool des österreichischen Anbieters AudioIndex getestet, das für sich in Anspruch nimmt, auch in Dialekt Gesprochenes gut zu verschriftlichen. Die angegebene Trefferquote von bis zu 95 Prozent erwies sich in der Praxis als nicht übertrieben. Eine 30-minütige Aufzeichnung einer Datei in WAV-, MP3-, MP4- oder M4a-Format war in drei Minuten analysiert und als Text downloadbar oder kopierbar. Das Handling ist denkbar einfach und funktioniert über die Homepage, wo die Audio- oder Videodateien hochgeladen werden. Abgerechnet wird pro Minute des hochgeladenen Audiomaterials.

AUDIOINDEX

Das nächste größere Feature, das wir integrieren möchten, ist die Sprecherwechsel- oder die Sprechererkennung.

Johannes Busching, Gründer AudioIndex, Wien

Auf Medien fokussiert
Die meist korrekte Interpunktion ist eine der großen Überraschungen beim Test. „Gerade letztes Jahr war ein Riesensprung in der Technologie feststellbar, was die Optimierungen betrifft. Sie sind der eigentliche Knackpunkt. Die ersten 80 Prozent sind einfach zu bekommen. Aber dann geht es wirklich um jedes weitere Prozent, an dem man schrauben muss“, sagt Johannes Busching. Der Wiener hat das Startup im Frühjahr 2020 gegründet und hat sich im Bereich Medien und Marktforschung positioniert.

Automatisiertes Resümee
Busching will für seine Zielgruppe den Mehrwert mit weiteren Funktionen ausbauen. „Es geht dabei in Richtung automatisierter Zusammenfassungen. Das nächste größere Feature, das wir integrieren möchten, ist die Sprechererkennung.“ Dass diese Entwicklung parallel mit den Umwälzungen in den Redaktionen einhergeht, ist keine Überraschung. Medienhäuser suchen Tools, mit denen Content automatisch geschaffen werden kann oder Stimmen fürs Radio künstlich generiert werden können. Insgesamt setzt Busching auf Unabhängigkeit – auch beim Datenhosting. Die Server stehen in Österreich und Deutschland. Nicht unbedeutend, die Performance und Datensicherheit betreffend.

Wien

Für Adam und Eva: Die schönsten FKK-Plätze

30.05.2022 um 15:36, Rudolf Grüner

Badespaß ohne Klamotten: Wo Fans der Freikörperkultur in Wien nicht nur die Seele baumeln lassen können. Die besten "Nacktbadeplätze" rund um Wien.

Promitalk

Top 10: So sozial sind die Promis

22.03.2018 um 10:54, Isabel Folie

Wer berühmt ist, kann seine Stimme dafür nutzen, sich für andere einzusetzen. Diese zehn Stars zeigen besonders viel Engagement und kämpfen mit Leidenschaft…