DZIEKAN i RADA WYDZIAŁU INFORMATYKI, ELEKTRONIKI I TELEKOMUNIKACJI AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE |
---|
zapraszają na publiczą dyskusję nad rozprawą doktorską mgr. inż. Rafała Samborskiego |
WYKORZYSTANIE SZEROKOPASMOWEJ MATRYCY WIELOMIKROFONOWEJ W ROZPOZNAWANIU MÓWCY |
Dyskusja odbędzie się 30 czerwca 2016 roku o godz. 10:00 w sali 1.19 pawilon D-17, ul. Kawiory 21, 30-059 Kraków |
PROMOTOR: prof. dr hab. inż. Mariusz Ziółko – Akademia Górniczo-Hutnicza im. Stanisława Staszica |
RECENZENCI: prof. dr hab. inż. Adam Dąbrowski – Politechnika Poznańska |
prof. dr hab. inż. Tomasz Zieliński – Akademia Górniczo-Hutnicza im. Stanisława Staszica |
Z rozprawą doktorską i opiniami recenzentów można się zapoznać w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30 |
mgr inż. Rafał Samborski
Promotor: prof. dr hab. inż. Mariusz Ziółko (AGH)
Dyscyplina: Elektronika
W pracy przedstawione zostały najważniejsze możliwości zastosowania matryc wielomikrofonowych w technologii mowy, a w szczególności w zakresie rozpoznawania mówcy. Głównym aspektem badawczym było rozwinięcie stosowanych obecnie systemów diaryzacji nagrań opartych o jednoczesne wykorzystanie informacji bazującej na cechach częstotliwościowych (MFCC) i na położeniu mówcy (TDOA) wyznaczonym dzięki wykorzystaniu układu wielu mikrofonów. Zarówno literatura, jak i eksperymenty przedstawione przez autora potwierdzają, że informacja na temat położenia mówcy w znaczący sposób obniża ilość błędnie opisanych wypowiedzi (diarization error rate, DER).
Nowością nieopisaną dotychczas w literaturze jest zastosowanie dynamicznego doboru proporcji pomiędzy strumieniami informacji. Proporcja w hybrydowym systemie zaproponowanym przez autora dobierana jest w zależności od aktualnych warunków akustycznych. Praca posiada rozbudowaną część doświadczalną, w której opracowane algorytmy zostały przetestowane na korpusie zawierającym rzeczywiste nagrania. Zaprezentowane wyniki pokazują, że zastosowanie dynamicznych wag pomiędzy strumieniami pozwala na obniżenie ilości DER nawet o 30% w stosunku do systemu ze stałą proporcją. Praca zawiera również porównanie wyników uzyskanych za pomocą opracowanego rozwiązania z opisanymi wcześniej w literaturze.
Teza rozprawy została sformułowana w następujący sposób:
Wykorzystanie kilku strumieni cech w znaczący sposób polepsza skuteczność działania systemu diaryzacji nagrań. Poprzez dynamiczny dobór proporcji pomiędzy informacją pochodzącą z klasycznego systemu identyfikacji mówcy opartego o cechy częstotliwościowe (MFCC) a informacją związaną z lokalizacją mówcy (TDOA) następuje znacząca poprawa wyników algorytmu w stosunku do istniejących rozwiązań.
Najważniejsze osiągnięcia pracy można streścić w następujących punktach:
prof. dr hab. inż. Adam Dąbrowski
prof. dr hab. inż. Tomasz Zieliński
Ważniejsze publikacje doktoranta: