Doktoraty Wydziału IET

Zaproszenie na obronę pracy doktorskiej

DZIEKAN i RADA WYDZIAŁU INFORMATYKI, ELEKTRONIKI I TELEKOMUNIKACJI AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE
zapraszają na publiczą dyskusję nad rozprawą doktorską mgr. inż. Rafała Samborskiego
WYKORZYSTANIE SZEROKOPASMOWEJ MATRYCY WIELOMIKROFONOWEJ W ROZPOZNAWANIU MÓWCY
Dyskusja odbędzie się 30 czerwca 2016 roku o godz. 10:00 w sali 1.19 pawilon D-17, ul. Kawiory 21, 30-059 Kraków
PROMOTOR: prof. dr hab. inż. Mariusz Ziółko – Akademia Górniczo-Hutnicza im. Stanisława Staszica
RECENZENCI: prof. dr hab. inż. Adam Dąbrowski – Politechnika Poznańska
prof. dr hab. inż. Tomasz Zieliński – Akademia Górniczo-Hutnicza im. Stanisława Staszica
Z rozprawą doktorską i opiniami recenzentów można się zapoznać w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30

Wykorzystanie szerokopasmowej matrycy wielomikrofonowej w rozpoznawaniu mówcy

mgr inż. Rafał Samborski

Promotor: prof. dr hab. inż. Mariusz Ziółko (AGH)
Dyscyplina: Elektronika

W pracy przedstawione zostały najważniejsze możliwości zastosowania matryc wielomikrofonowych w technologii mowy, a w szczególności w zakresie rozpoznawania mówcy. Głównym aspektem badawczym było rozwinięcie stosowanych obecnie systemów diaryzacji nagrań opartych o jednoczesne wykorzystanie informacji bazującej na cechach częstotliwościowych (MFCC) i na położeniu mówcy (TDOA) wyznaczonym dzięki wykorzystaniu układu wielu mikrofonów. Zarówno literatura, jak i eksperymenty przedstawione przez autora potwierdzają, że informacja na temat położenia mówcy w znaczący sposób obniża ilość błędnie opisanych wypowiedzi (diarization error rate, DER).

Nowością nieopisaną dotychczas w literaturze jest zastosowanie dynamicznego doboru proporcji pomiędzy strumieniami informacji. Proporcja w hybrydowym systemie zaproponowanym przez autora dobierana jest w zależności od aktualnych warunków akustycznych. Praca posiada rozbudowaną część doświadczalną, w której opracowane algorytmy zostały przetestowane na korpusie zawierającym rzeczywiste nagrania. Zaprezentowane wyniki pokazują, że zastosowanie dynamicznych wag pomiędzy strumieniami pozwala na obniżenie ilości DER nawet o 30% w stosunku do systemu ze stałą proporcją. Praca zawiera również porównanie wyników uzyskanych za pomocą opracowanego rozwiązania z opisanymi wcześniej w literaturze.

Teza rozprawy została sformułowana w następujący sposób:

Wykorzystanie kilku strumieni cech w znaczący sposób polepsza skuteczność działania systemu diaryzacji nagrań. Poprzez dynamiczny dobór proporcji pomiędzy informacją pochodzącą z klasycznego systemu identyfikacji mówcy opartego o cechy częstotliwościowe (MFCC) a informacją związaną z lokalizacją mówcy (TDOA) następuje znacząca poprawa wyników algorytmu w stosunku do istniejących rozwiązań.

Najważniejsze osiągnięcia pracy można streścić w następujących punktach:

dokładna analiza stanu wiedzy na temat zastosowania matryc wielomikrofonowych w technologii mowy,
budowa autorskich rozwiązań sprzętowych (matryca 4- i 16-mikrofonowa) i algorytmicznych,
koncepcja dynamicznego doboru proporcji między strumieniami MFCC i TDOA,
obniżenie ilość błędnie opisanych wypowiedzi (DER) o 30% w stosunku do systemu ze stałą proporcją,
eksperymenty przeprowadzone na specjalnie przygotowanym korpusie nagrań (korpus zgodny z wymaganiami NIST),
dokładne porównanie z istniejącymi algorytmami diaryzacji.

Recenzje pracy

prof. dr hab. inż. Adam Dąbrowski

prof. dr hab. inż. Tomasz Zieliński

Ważniejsze publikacje doktoranta:

Samborski R., Ziółko M., Ziółko B., Gałka J.: Speech extraction from jammed signals in dual-microphone systems, IASTED International Conference on Signal Processing, Pattern Recognition and Applications, Innsbruck, Austria, 2010.
Samborski R., Ziółko M., Ziółko B., Gałka J.: Wiener filtration for speech extraction from the intentionally corrupted signals, IEEE International Symposium on Industrial Electronics, Bari, Italy, 2010.
Samborski R., Ziółko M.: Filter-based model of multimicrophone array in an adverse acoustic environment, Engineering Letters, vol. 20, 2012.
Samborski R., Ziółko M.: Speaker localization in conferencing systems employing phase features and wavelet transform, IEEE International Symposium on Signal Processing and Information Technology, Athens, Greece, 2013.
Gałka J., Grzywacz M., Samborski R.: Playback attack detection for text-dependent speaker verification over telephone channels, Speech Communication, vol. 67, 2015.
Gałka J., Grzywacz M., Samborski R.: A system and a method for detecting recorded biometric information, European Patent Office, EP 3016314 A1, 2016

Doktoraty Wydziału IET

Narzędzia użytkownika

Narzędzia witryny

Zaproszenie na obronę pracy doktorskiej

Wykorzystanie szerokopasmowej matrycy wielomikrofonowej w rozpoznawaniu mówcy

Recenzje pracy

Narzędzia strony