Zaproszenie na obronę pracy doktorskiej

DZIEKAN i RADA WYDZIAŁU
INFORMATYKI, ELEKTRONIKI I TELEKOMUNIKACJI
AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE
zapraszają na
publiczą dyskusję nad rozprawą doktorską

mgr. inż. Rafała Samborskiego
WYKORZYSTANIE SZEROKOPASMOWEJ MATRYCY WIELOMIKROFONOWEJ W ROZPOZNAWANIU MÓWCY
Dyskusja odbędzie się 30 czerwca 2016 roku o godz. 10:00 w sali 1.19
pawilon D-17, ul. Kawiory 21, 30-059 Kraków
PROMOTOR: prof. dr hab. inż. Mariusz Ziółko – Akademia Górniczo-Hutnicza im. Stanisława Staszica
RECENZENCI: prof. dr hab. inż. Adam Dąbrowski – Politechnika Poznańska
prof. dr hab. inż. Tomasz Zieliński – Akademia Górniczo-Hutnicza im. Stanisława Staszica
Z rozprawą doktorską i opiniami recenzentów można się zapoznać
w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30



Wykorzystanie szerokopasmowej matrycy wielomikrofonowej w rozpoznawaniu mówcy

mgr inż. Rafał Samborski


Promotor: prof. dr hab. inż. Mariusz Ziółko (AGH)
Dyscyplina: Elektronika


W pracy przedstawione zostały najważniejsze możliwości zastosowania matryc wielomikrofonowych w technologii mowy, a w szczególności w zakresie rozpoznawania mówcy. Głównym aspektem badawczym było rozwinięcie stosowanych obecnie systemów diaryzacji nagrań opartych o jednoczesne wykorzystanie informacji bazującej na cechach częstotliwościowych (MFCC) i na położeniu mówcy (TDOA) wyznaczonym dzięki wykorzystaniu układu wielu mikrofonów. Zarówno literatura, jak i eksperymenty przedstawione przez autora potwierdzają, że informacja na temat położenia mówcy w znaczący sposób obniża ilość błędnie opisanych wypowiedzi (diarization error rate, DER).

Nowością nieopisaną dotychczas w literaturze jest zastosowanie dynamicznego doboru proporcji pomiędzy strumieniami informacji. Proporcja w hybrydowym systemie zaproponowanym przez autora dobierana jest w zależności od aktualnych warunków akustycznych. Praca posiada rozbudowaną część doświadczalną, w której opracowane algorytmy zostały przetestowane na korpusie zawierającym rzeczywiste nagrania. Zaprezentowane wyniki pokazują, że zastosowanie dynamicznych wag pomiędzy strumieniami pozwala na obniżenie ilości DER nawet o 30% w stosunku do systemu ze stałą proporcją. Praca zawiera również porównanie wyników uzyskanych za pomocą opracowanego rozwiązania z opisanymi wcześniej w literaturze.

Teza rozprawy została sformułowana w następujący sposób:

Wykorzystanie kilku strumieni cech w znaczący sposób polepsza skuteczność działania systemu diaryzacji nagrań. Poprzez dynamiczny dobór proporcji pomiędzy informacją pochodzącą z klasycznego systemu identyfikacji mówcy opartego o cechy częstotliwościowe (MFCC) a informacją związaną z lokalizacją mówcy (TDOA) następuje znacząca poprawa wyników algorytmu w stosunku do istniejących rozwiązań.

Najważniejsze osiągnięcia pracy można streścić w następujących punktach:

  • dokładna analiza stanu wiedzy na temat zastosowania matryc wielomikrofonowych w technologii mowy,
  • budowa autorskich rozwiązań sprzętowych (matryca 4- i 16-mikrofonowa) i algorytmicznych,
  • koncepcja dynamicznego doboru proporcji między strumieniami MFCC i TDOA,
  • obniżenie ilość błędnie opisanych wypowiedzi (DER) o 30% w stosunku do systemu ze stałą proporcją,
  • eksperymenty przeprowadzone na specjalnie przygotowanym korpusie nagrań (korpus zgodny z wymaganiami NIST),
  • dokładne porównanie z istniejącymi algorytmami diaryzacji.

Recenzje pracy

prof. dr hab. inż. Adam Dąbrowski

prof. dr hab. inż. Tomasz Zieliński




Ważniejsze publikacje doktoranta:

  1. Samborski R., Ziółko M., Ziółko B., Gałka J.: Speech extraction from jammed signals in dual-microphone systems, IASTED International Conference on Signal Processing, Pattern Recognition and Applications, Innsbruck, Austria, 2010.
  2. Samborski R., Ziółko M., Ziółko B., Gałka J.: Wiener filtration for speech extraction from the intentionally corrupted signals, IEEE International Symposium on Industrial Electronics, Bari, Italy, 2010.
  3. Samborski R., Ziółko M.: Filter-based model of multimicrophone array in an adverse acoustic environment, Engineering Letters, vol. 20, 2012.
  4. Samborski R., Ziółko M.: Speaker localization in conferencing systems employing phase features and wavelet transform, IEEE International Symposium on Signal Processing and Information Technology, Athens, Greece, 2013.
  5. Gałka J., Grzywacz M., Samborski R.: Playback attack detection for text-dependent speaker verification over telephone channels, Speech Communication, vol. 67, 2015.
  6. Gałka J., Grzywacz M., Samborski R.: A system and a method for detecting recorded biometric information, European Patent Office, EP 3016314 A1, 2016

2016/samborski/start.txt · ostatnio zmienione: 2016/06/13 11:22 przez Rafał Samborski