Topthema: Die ewige Legende Harwood Acoustics LS3/5A

Es gibt Lautsprecher und dann gibt es noch die LS3/5A. Sie spaltet sowohl ihre Hörer, als auch die, die sie gar nicht kennen. Warum das so ist? Nun, dafür muss man sich vor allem anschauen und natürlich hören, was sie kann und nicht, was sie nicht kann.

>> Mehr erfahren >> Alle anzeigen

390_22002_2

Topthema: Sound im Audi Audio System RFIT Audi A6 C8 Evo2 – 20er System für Audi A6

Von Audio System gibt es eine Vielzahl an Nachrüstlautsprechern für Audi. Wir schaffen den Überblick und testen das RFIT Set für den A6 C8.

>> Mehr erfahren >> Alle anzeigen

News Kategorie: Service

Marke:

Voice-to-Text-Revolution: Der rasante Fortschritt in der künstlichen Intelligenz geht weiter

26.02.2024 09:20 Uhr von Robert Glückshöfer

Künstliche Intelligenz lässt sich nicht nur auf Texte und Bilder übertragen, sondern auch auf Stimmen. Schon seit vielen Jahrzehnten wird an Umwandlung von Stimmen zu Text gearbeitet, um Scripte und Untertitel einfacher einzufügen und diese möglichst fehlerfrei zu nutzen.

Stolpersteine gibt es immer, vor allem bei unverständlichen Audiospuren, Dialekten oder schlechten Aufnahmen. Doch KI ist mittlerweile so sehr auf dem Vormarsch, dass sich bald selbst komplizierte Audio- und Videoaufnahmen problemlos zu Text verarbeiten lassen.

462_22882_2

Topthema: Feurig High-End-Standbox mit ESS AMT

Mit diesen Chassis wollte ich schon immer mal etwas bauen. Dass ich sie allerdings jemals zusammen in einer Box haben würde, hätte ich dann doch wieder nicht erwartet – dass das Ganze so gut werden würde, dann schon eher.

>> Mehr erfahren >> Alle anzeigen

Wozu dient die Umwandlung von Audio zu Text?

Die Umwandlung von Audioaufnahmen oder Videos zu Text ist wichtig, um Informationen besser und einfacher abrufen zu können. Es hat also vor allem funktionelle Gründe, die sich aber auf viele Bereiche anwenden lassen. Transkripte sind in vielen Bereichen nötig, um sich nicht immer wieder die Audiodatei anhören zu müssen und Infos einfacher an andere Personen weiterzugeben. Worte lassen sich einfacher verfolgen und wichtige Punkte können so besser aufgenommen und vor allem wiederholt werden, ohne ständig die Audioaufnahme zurückspulen zu müssen.

Mit einer Textausgabe werden Audioaufnahmen außerdem zugänglicher für bestimmte Bevölkerungsgruppen, zum Beispiel schwerhörige Menschen, die sich nicht mehr auf ihr Gehör verlassen können. Transkripte helfen dabei, Inhalte auch an diese Leute weiterzugeben.

Audio zu Text Programme vereinfachen diesen Prozess ungemein. Während man sich früher selbst um das Transkribieren kümmern musste, kann das mittlerweile eine künstliche Intelligenz übernehmen. Das Ganze funktioniert im Prinzip wie ein Diktat, nur eben komplett automatisiert und hoffentlich ohne menschliche Fehler, die sich womöglich einschleichen. Sowohl bereits aufgenommene Aufnahmen als auch Live-Übertragungen können mithilfe solcher Programme in Textform umgewandelt werden.

Doch welche Fortschritte wurden auf diesem Feld genau gemacht? Und welche Rolle spielt die künstliche Intelligenz bei der Umsetzung von Voice-to-Text-Programmen?

Fehlerfreie Ausgabe

Rechtschreibung und Grammatik sind für einen menschlichen Transkriptor wichtige Grundbausteine, um Texte auch richtig zu übertragen. Doch auch hier gibt es immer wieder Lücken, die sich auftun und dafür sorgen, dass Texte nicht richtig interpretiert werden. Computer und künstliche Intelligenz sollten damit jedoch weniger Probleme haben, immerhin sind diese darauf trainiert, Fehler zu finden und diese zu korrigieren. Jedes Schreibprogramm verfügt über die Funktionen, die natürlich auch bei Audio-to-Text angewendet werden. Somit werden grobe Fehler vermieden.

KI ist aber auch nicht unfehlbar, was einem sicher von der Texterstellung in Word oder einem anderen Schreibprogramm bekannt ist. Sie kann schlichtweg nicht alle Kontexte und grammatischen Regeln kennen, geschweige denn unbekannte Begriffe, Dialekte oder Fantasienamen richtig zuordnen. Aber auch in diesem Feld tut sich einiges, die Technologie ist auf dem Vormarsch und künstliche Intelligenz wird anhand von früheren Texten deutlich schlauer. Es ist also nur eine Frage der Zeit, bis sie Texte fehlerfrei aus Audioaufnahmen extrahieren und in Textform umsetzen kann.

Textart und andere Feinheiten erkennen

Bei der Erkennung von Textarten ist die Weiterentwicklung von KI ebenfalls notwendig. Hier geht es vor allem um die richtige Zeichensetzung, um bestimmte Textabschnitte voneinander zu unterscheiden. Wie sieht es zum Beispiel bei der Formatierung von Dialogen aus? Künstliche Intelligenz macht auch hier große Fortschritte und lässt sich daher in so ziemlich allen Bereichen der Umsetzung anwenden. Somit können auch künstlerische Audioaufnahmen davon Gebrauch machen, zum Beispiel Theaterstücke, Drehbücher oder normale Bücher.

Sprachen und Akzente zuordnen

Spracherkennung ist ebenfalls etwas, an dem schon seit Jahren gefeilt wird. Viele Tools sind zwar auf mehrere Sprachen ausgelegt, decken aber noch lange nicht die gesamte Bandbreite ab. Manchmal gibt es sogar Programme, die sich nur auf eine Sprache fokussieren. Diese sind dann zwar sehr zuverlässig, aber lassen sich auch nur in einem bestimmten Rahmen anwenden. In unserer heutigen globalisierten Welt wäre es jedoch ein Traum, gesprochene Aussagen direkt und vor allem fehlerfrei in Textform zu übertragen. Anwendungsbereiche wären unter anderem das Sprachenlernen oder Reisen in ferne Länder. Features wie diese gibt es zwar schon, aber sind immer noch anfällig für Fehler.

Schnelligkeit und Genauigkeit

Je länger eine Audiodatei ist, desto länger dauert auch die Transkription als Text. Doch auch hier werden immer wieder neue Meilensteine erreicht, die dafür sorgen, dass KI Texte noch schneller bearbeiten kann. Natürlich muss dabei auch immer ein Fokus auf eine fehlerfreie Umsetzung liegen, jedoch müssen hier zukünftig so gut wie keine Abstriche mehr gemacht werden. Künstliche Intelligenz ist der menschlichen Schnelligkeit schon seit Jahren voraus, jedoch hapert es gerne noch an einigen Stellen. Aktuell ist eine Genauigkeit von 90 bis 99 Prozent gegeben.

Fazit

Speech-to-Text ist ein unheimlich wichtiges Feld in der Entwicklung künstlicher Intelligenz. Seine Geschichte lässt sich bis auf die 1950er Jahre zurückverfolgen, nimmt aber erst jetzt so richtig an Fahrt auf. Alleine Plattformen wie YouTube nutzen ähnliche Tools, um automatisch Untertitel für Milliarden von Videos zu generieren. In Zukunft werden entsprechende Tools nur noch fehlerfreier und schneller funktionieren. Live-Umsetzungen sind ebenfalls möglich und können direkt Sprache in Text umwandeln, um später eine direkte Aufzeichnung eines Gesprächs oder einer Konferenz zu haben. Die Möglichkeiten sind wahrlich endlos und geben vielen Menschen den Zugang zu Audioaufnahmen und Transkripten.

vorherige News

nächste News

Neu im Shop

ePaper Jahres-Archive, z.B. Car & Hifi

>> mehr erfahren

465_23072_2

Topthema: Der Geburtstagslautsprecher

Revox Elegance G120 – Limited Edition 75 Years

Revox ist 2003 stolze 75 Jahre alt geworden. Alleine das ist schon Grund zum Feiern. Aber Revox hat auch ein besonderes Angebot für Fans, man kann gewissermaßen Mitglied in einem sehr exklusiven Club werden.

>> Mehr erfahren

kostenloses Probeexemplar Cover Probeexemplar