VoiceTime – Sprecherkennung mittels Zeitbereichsinformationen

Redaktion

Für den Inhalt der Angaben zeichnet die Projektleitung verantwortlich.

Kooperation

Dieses von der Gebert Rüf Stiftung geförderte Projekt wird von folgenden weiteren Projektpartnern mitgetragen: Phonetisches Laboratorium, Universität Zürich; Abteilung Akustik, EMPA, Eidg. Materialprüfungs- und Forschungsanstalt

Projektdaten

Projekt-Nr: GRS-027/13
Förderbeitrag: CHF 338'000
Bewilligung: 30.10.2013
Dauer: 01.2014 - 11.2017
Handlungsfeld: Pilotprojekte, 1998 - 2018

Projektleitung

Prof. Dr. Volker Dellwo, Assistenzprofessor
Universität Zürich
Phonetisches Laboratorium
Rämistrasse 71
8092 Zürich (Schweiz)
volker.notexisting@nodomain.comdellwo@uzh.notexisting@nodomain.comch

Projektbeschreibung

Ziel des Projekts ist die Entwicklung der Software «VoiceTime», die menschliche Stimmen vornehmlich aufgrund von Zeitbereichsinformationen erkennt. Zeitbereichsinformationen sind im Gegensatz zu Frequenzbereichsinformationen alle Dauermerkmale im Sprachsignal (z. B. Dauer einzelner Segmente, Abstände zwischen Amplitudenspitzen oder Dauer von Grundfrequenzbewegungen). Unsere Fokussierung liegt dabei auf dem niederfrequenten Zeitbereich, d. h. wir betrachten Merkmale ab der Grösse eines Lautsegments. Diese Merkmale lassen sich aus dem Stimmsignal meist direkt herauslesen und berechnen (für Frequenzbereichsinformationen wird dagegen das Spektrum eines kurzen Signalabschnitts erzeugt, aus dem Eigenschaften wie z. B. Formantfrequenzen berechnet werden). Die Software «VoiceTime» soll einerseits als Testumgebung für Experimente in der Forschung dienen, andrerseits soll daraus mittel- bis langfristig ein Produkt entstehen, das für Zutrittssysteme oder Sprecheridentifizierungssysteme im forensischen Bereich angewendet werden kann.

Was ist das Besondere an diesem Projekt?

E-mail, Onlinebanking, PC Start, Bankomat, Facebook, Gebäudezutritt, Amazon, Ebay, Google, Orange, etc. Die Liste an Beispielen, für die wir im täglichen Gebrauch Passwörter verwenden müssen, ist praktisch unendlich. Die Nachfrage nach Identifizierungsmethoden ist seit der Computerisierung unserer zivilisierten Welt stark gestiegen. Und wie haben wir uns vor der Einführung von Computern identifiziert? Oftmals reichte schon ein einfacher Anruf, zum Beispiel für die Abwicklung von Finanzgeschäften. Identifiziert hat uns der bekannte Bankangestellte aufgrund unserer Stimme. Grund für diese Art der Identifizierung ist die Tatsache, dass menschliche Stimmen individuell sind. Daher können Sprecher bis zu einem hohen Mass aufgrund ihrer Stimme erkannt werden. Ziel des vorliegenden Projekts ist die Entwicklung der Software «VoiceTime», die die Sprecher aufgrund ihrer Stimme automatisch erkennen kann. In Zukunft könnte dieses System dazu beitragen, die Flut an Passwörtern zu reduzieren und unsere Identifizierung mit einer altbewährten Methode zu ermöglichen: mit unserer Stimme.

Systeme zur Erkennung von Sprechern aufgrund ihrer Stimme existieren schon; ihre Leistung kann jedoch verbessert werden. Dies soll im vorliegenden Projekt erreicht werden und zwar vornehmlich aufgrund von Zeitbereichsinformationen. Darunter verstehen wir im Gegensatz zu Frequenzbereichsinformationen alle Dauermerkmale im Sprachsignal (z.B. Dauer einzelner Segmente, Abstände zwischen Amplitudenspitzen oder Dauer von Grundfrequenzbewegungen). Dabei werden Merkmale betrachtet, die gleich lang oder grösser wie ein Lautsegment sind. Menschliche Stimme hat einen komplexen Aufbau über die Zeit, der in derartigen Dauermerkmalen erfasst werden kann. Diese Merkmale lassen sich aus dem Stimmsignal meist direkt herauslesen und berechnen. Im Gegensatz dazu ist für Frequenzbereichsinformationen die Berechnung des Spektrums eines kurzen Signalabschnitts notwendig, aus dem sich Eigenschaften wie z. B. Formantfrequenzen eruieren lassen. Die Software «VoiceTime» soll einerseits als Testumgebung für Experimente in der Forschung dienen, andererseits soll daraus mittel- bis langfristig ein Produkt entstehen, das für Sprechererkennungssysteme angewendet werden kann, bzw. die Leistung bestehender Systeme verbessert. Die Herausforderungen dabei sind die Wahl der Zeitbereichsmerkmale, deren effiziente und effektive Implementierung in Software, sowie die Kombination und Gewichtung der Merkmale, um Sprecher zu identifizieren. Dazu werden Methoden der Signalverarbeitung und Klassifizierungsalgorithmen verwendet. Die Software «VoiceTime» soll auf PC oder Mac laufen, eine grafische Benutzeroberfläche aufweisen und eine Zuverlässigkeit und Robustheit aufweisen, die für den praktischen Einsatz tauglich ist. Das System wird mit Hilfe von grossen, standardisierten Testdaten ausgewertet und soll zeigen, wie leistungsfähig eine Sprechererkennung mittels Zeitbereichsinformationen alleine und bei Kombination mit Frequenzbereichsinformationen ist. Es ist zu erwarten, dass durch den Einbezug von Zeitbereichsmerkmalen in «VoiceTime» Verbesserungen gegenüber vergleichbaren Sprechererkennungssystemen erzielt werden können.

Stand/Resultate

Im zweiten Projektjahr haben wir zwei Meilensteine erreicht. Zum einen haben wir eine Basisversion der Software «VoiceTime» implementiert und zum anderen die Entwicklung und automatische Extraktion der Zeitbereichsmasse abgeschlossen. Die grafische Benutzeroberfläche erlaubt eine komfortable Bedienung des Tools, mit dem nun Experimente mit verschiedenen Klassifikationsalgorithmen und Zeitbereichsmerkmalen durchgeführt werden können. Eine Referenzmethode mit Frequenzbereichsmerkmalen wurde ebenfalls realisiert. Deren Ergebnisse dienen als Messlatte für Verbesserungen. Die Zeitbereichsmasse und insbesondere die neuen Intensitätsmasse sind definiert und können anhand von Hand segmentierter Daten berechnet werden. Die automatische Segmentierung der Sprachaufnahmen in Lautsegmente funktioniert auf kurzen Testaufnahmen bereits gut, bei längeren Sätzen müssen noch ein paar zusätzliche Mechanismen eingebaut werden.

Im zweiten Jahr gab es auch zahlreiche Publikationen: Ein Ansatz das Sprachsignal im Zeitbereich in amplitudenmässig stabile und instabile Einheiten zu unterteilen wurde an der Interspeech 2015 in Dresden vorgestellt (Glavitsch, He, & Dellwo, 2015). Ausserdem gaben wir einen Überblick über prosodische Variabilität zwischen Sprechern im Amplitudenbereich, den wir für die automatische Sprechererkennung verwenden möchten (He, Glavitsch, & Dellwo, 2015b). Erste Erkennungsergebnisse mit diesen Charakteristika haben wir auf dem International Congress of Phonetic Sciences vorgestellt (He, Glavitsch, & Dellwo, 2015a). Des weiteren liefern wir einen Überblick darüber, wie zeitliche Phänomene zur Individualität in gesprochener Sprache beitragen können (Dellwo, 2015), wie Hörer solche Phänomene wahrnehmen (Dellwo, Leemann, & Kolly, 2015) und wie stabil rhythmisch-prosodische Merkmale innerhalb eines Sprechers sind, wenn dieser die Sprache wechselt (Dellwo & Schmid, 2015).

Im dritten Projektjahr wurden mit der Software «VoiceTime» Experimente durchgeführt um die optimale Kombination von Zeitbereichsmerkmalen für die Sprechererkennung zu finden. Auf der Sprecherdatenbank TEVOID mit 16 Sprechern (8 Frauen und 8 Männer) wurde eine Erkennungsrate von 84.23 % erreicht. Auf der Datenbank TEVOID mit 50 Sprechern liegt die Erkennungsrate bei 68.1 %. Daneben wurde die Segmentierung der Audioaufnahmen in einzelne Laute verbessert. Experimente zeigen, dass 70 % aller Laute richtig lokalisiert werden konnten. Sowohl der Segmentierungsalgorithmus als auch die Erkennungsmethode mittels Zeitbereichsmerkmalen haben den Wirksamkeitsnachweis erbracht und werden in Folgeprojekten weiterentwickelt.

Publikationen

Dellwo, V. (2015). What does voice and silence tell us about speaker identity? An introduction to temporal speaker individualities and their use for forensic speaker comparison (pp. 1-20);
Dellwo, V., Leemann, A., & Kolly, M. (2015). The recognition of read and spontaneous speech in local vernacular_ The case of Zurich German. Journal of Phonetics, 48(C), 13-28. doi:10.1016/j.wocn.2014.10.011;
Dellwo, V., & Schmid, S. (2015). Speaker-individual rhythmic characteristics in read speech of German-Italian bilinguals. In A. Leemann, M. J. Kolly, S. Schmid, & V. Dellwo (Eds.), Trends in Phoentics and Phonology: Studies from German speaking Europe (pp. 349-363). Bern: Peter Lang;
Glavitsch, U., He, L., & Dellwo, V. (2015, 6.-10. September 2015). Stable and Unstable Intervals as a Basic Segmentation Procedure of the Speech Signal. Paper presented at the Interspeech, Dresden/Germany;
He, L., Glavitsch, U., & Dellwo, V. (2015a, August 2015). Comparison of speaker recognition strengths using suprasegmental duration and intensity variability: An artificial neural networks approach. Paper presented at the International Congress of Phonetic Sciences (ICPhS), Glasgow/UK;
He, L., Glavitsch, U., & Dellwo, V. (2015b, August 2015). Inter-speaker variability in intensity dynamics. Paper presented at the International Association of Forensic Phonetics and Acoustics, Leiden/Netherlands;
Milo evi , M., Glavitsch, U., He, L. & Dellwo, V. (2016). Segmental features for automatic speaker recognition in a flexible software framework. 25th annual conference of the International Association for Forensic Phonetics and Acoustics (IAFPA), York, UK.

Links

Theoretische Vorarbeiten, auf denen das Projekt «VoiceTime» aufbaut, wurden in einem Grundlagenprojekt erstellt.

Am Projekt beteiligte Personen

Volker Dellwo, Projektleiter, 044 634 29 95
Ulrike Glavitsch, 058 765 44 23
Lei He, 078 863 10 02

Letzte Aktualisierung dieser Projektdarstellung 22.05.2019

PORTFOLIO

Projektdarstellungen auf der Webseite