Narzędzia użytkownika

Narzędzia witryny


2022:witkow:start


PRZEWODNICZĄCY I RADA DYSCYPLINY
INFORMATYKI TECHNICZNEJ I TELEKOMUNIKACJI
AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE
zapraszają na
publiczą dyskusję nad rozprawą doktorską

mgr inż. Marcina Witkowskiego
Robust speaker verification with reverberation suppression and spoofing detection
Termin:27 października 2022 roku o godz. 11:30
Miejsce: Sala 2.11, pawilon C7, AGH
al. Czarnowiejska 36
30-059 Kraków
PROMOTOR:dr hab. inż. Konrad Kowalczyk, prof. uczelni, Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie
PROMOTOR POMOCNICZY:dr inż. Jakub Gałka, Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie
RECENZENCI:Prof. dr hab. inż. Bożena Kostek, Politechnika Gdańska
dr hab. inż. Artur Janicki, prof. uczelni, Politechnika Warszawska
Z rozprawą doktorską i opiniami recenzentów można się zapoznać
w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30

Robust speaker verification with reverberation suppression and spoofing detection

Zwiększanie skuteczności weryfikacji mówcy poprzez redukcję pogłosu i wykrywanie ataków prezentacji

Autor: mgr inż. Marcin Witkowski
Promotor: dr hab. inż. Konrad Kowalczyk, prof. uczelni (AGH)
Promotor pomocniczy: dr inż. Jakub Gałka (AGH)
Dyscyplina: Informatyka Techniczna i Telekomunikacja

Abstract

Since speaker verification (SV) systems are typically used for access control, the business decision about their deployment is largely dependent on their efficacy and security. This dissertation investigates methods aiming to increase the robustness of SV towards fraud attempts and reverberation mismatch between speaker enrollment and verification.

The impact of reverberation is investigated first in the context of speaker verification in a room with randomly distributed microphones. The main contributions of this study include the preferred microphone selection strategy for training and testing of an SV system and a novel feature extraction method, which integrates reverberation robust features with features extracted from a dereverberated signal. The results of the experiments, conducted using all major speaker modeling methods, confirm that such integration provides a higher SV efficacy improvement compared to other existing methods.

A large part of this thesis is dedicated to an introduction of a novel dereverberation method that enforces the sparsity of the Short-time Fourier Transform coefficients of the desired signal. The algorithm generalizes all major up-to-date sparse Multichannel Linear Prediction-based (MCLP) dereverberation techniques and yields superior improvements in terms of dereverberation performance measures and efficacy of speaker verification and automatic speech recognition (ASR) when used as a preprocessing step in the latter two tasks. Additionally, the study on the relation between dereverberation performance and efficacy of the subsequent SV and ASR indicates that improvements in Cepstral Distance and Frequency Weighted Signal-To-Noise Ratio are the measures that correlate most with the improvements of the metrics related to both tasks.

Increasing the security of SV is addressed by the detection of spoofing the input signal based on the playback of pre-recorded speech into the input microphone. This spoofing technique is known as a replay attack and is considered the most frequent and likely to occur among other methods. The pioneering study in this research area reveals that relevant spoofing cues can be found at high frequencies. Additionally, a novel feature extraction method based on an integration of cepstra from LP coefficients and LP residual signal is proposed.

Streszczenie

Systemy weryfikacji mówcy na ogół służą do kontroli dostępu, a decyzja biznesowa o ich wdrożeniu zależy w dużej mierze od ich bezpieczeństwa i skuteczności. W niniejszej rozprawie przeanalizowano szereg metod mających na celu zwiększenie odporności systemów weryfikacji mówcy na ataki prezentacji oraz różnice warunków pogłosowych występujących podczas rejestracji i weryfikacji mówcy w systemie.

W pierwszej części pracy skupiono się na weryfikacji mówcy w pomieszczeniu, w którym mikrofony są rozmieszczone w sposób losowy. Wyniki tych badań obejmują właściwą strategię doboru mikrofonów podczas uczenia i testowania systemu weryfikacji mówcy oraz nową metodę ekstrakcji cech, która integruje cechy odporne na pogłos z cechami uzyskanymi z sygnału poddanego usuwaniu pogłosu. Wyniki eksperymentów, w których zastosowano główne metody modelowania mówców, potwierdzają, że zastosowanie ww. integracji zwiększa skuteczność weryfikacji w porównaniu do stosowania innych metod.

Znaczna część pracy przedstawia nową metodę usuwania pogłosu, która wymusza rzadkość macierzy krótkoczasowej transformacji Fouriera pożądanego sygnału. Algorytm stanowi uogólnienie głównych metod wymuszających rzadkość i opartych na Wielokanałowej Predykcji Liniowej, cechuje się wysoką skutecznością w usuwaniu pogłosu oraz zwiększa poprawność weryfikacji mówcy oraz rozpoznawania mowy, gdy jest użyty w przetwarzaniu wstępnym w tych zadaniach. Badania zależności pomiędzy skutecznością usuwania pogłosu, a błędami generowanymi przez systemy przetwarzania mowy, wskazują, że poprawa jakości usuwania pogłosu, wyrażona jako zmiana odległości cepstralnej (ang. Cepstral Distance) i zmiana ważonego częstotliwościowo poziomu sygnału do szumu (ang. Frequency Weighted Segmental Signal-to-Noise Ratio) są miarami najbardziej skorelowanymi z miarami skuteczności weryfikacji mówcy i automatycznego rozpoznawania mowy.

Zwiększenie bezpieczeństwa systemów weryfikacji mówcy zrealizowano poprzez wykrywanie prób ataków opartych na fałszowaniu sygnału wejściowego poprzez odtworzenie wcześniej nagranej mowy do mikrofonu. Ta technika oszustwa, zwana atakiem prezentacji, jest uważana za najczęstszą i najbardziej prawdopodobną wśród innych metod tego typu. Przeprowadzone w tym obszarze badania o pionierskim charakterze pokazują, że zastosowanie cech opartych na wysokich pasmach sygnału skutkuje większą skutecznością wykrycia oszustw niż użycie cech obliczonych z pełnego spektrum sygnału. Zaproponowano ponadto nowy algorytm ekstrakcji cech oparty na łączeniu cepstrów obliczonych ze współczynników i sygnału błędu Predykcji Liniowej.


Praca udostępniona publicznie

Robust speaker verification with reverberation suppression and spoofing detection

Recenzje


Publikacje doktoranta


2022/witkow/start.txt · ostatnio zmienione: 2023/04/18 16:33 przez Marcin Witkowski