Narzędzia użytkownika

Narzędzia witryny


2019:skacprza:start

To jest stara wersja strony!


PRZEWODNICZĄCY I RADA DYSCYPLINY INFORMATYKI TECHNICZNEJ I TELEKOMUNIKACJI AKADEMII GÓRNICZO-HUTNICZEJ IM. STANISŁAWA STASZICA W KRAKOWIE
zapraszaja na
publiczą dyskusję nad rozprawą doktorską

mgr inż. Stanisława Kacprzaka
Spoken language recognition in i-vector space using cluster based modeling
Dyskusja odbędzie się 14 stycznia 2020 roku o godz. 12:00 w Sali 1.20
Centrum Informatyki D-17, ul. Kawiory 21
PROMOTOR:dr hab. inż. Bartosz Ziółko Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie
PROMOTOR POMOCNICZY:dr inż. Konrad Kowalczyk Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie
RECENZENCI:prof. dr hab. Zygmunt Vetulani Uniwersytet im. Adama Mickiewicza w Poznaniu
dr hab. inż. Artur Janicki Politechnika Warszawska
Z rozprawą doktorską i opiniami recenzentów można się zapoznać
w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30


Spoken language recognition in i-vector space using cluster based modeling


mgr inż. Stanisław Kacprzak


Promotor: dr hab. inż. Bartosz Ziółko (AGH)
Promotor pomocniczy: dr inż. Konrad Kowalczyk (AGH)
Dyscyplina: Informatyka Techniczna i Telekomunikacja


Abstract
This thesis investigates the use of clustering algorithms in the spoken language recognition task. The problem of clustering speech utterances into groups that correspond to the languages is analysed based on recordings transformed into the i-vector space. Different clustering algorithms and their configurations are tested on the NIST i-vector LRE data set. The obtained clusterings are assessed with external and internal clustering quality measures. Experiments show that the mean shift algorithm with cosine kernel is capable of achieving relatively pure clusters. Based on observations from clustering experiments, a modification to the standard language recognition system is proposed. This modification consists of creating an additional cluster-based models for each language with k-means algorithm. Experiments show that additional models with simple linear classifiers allow to achieve results competitive to those obtained with complex non-linear classifiers. Proposed system modifications enable parallelism and can be applied in existing i-vector based language recognition systems.


Streszczenie
Rozprawa przedstawia analizę wykorzystania algorytmów klasteryzacji w zadaniu rozpoznawania języka mówionego. Problem grupowania wypowiedzi w grupy odpowiadające językom jest analizowany dla nagrań przekształconych do przestrzeni i-wektorów. Algorytmy klasteryzacji i ich konfiguracje sę testowane na bazie NIST i-vector LRE. Jakość uzyskanych klasteryzacji jest oceniana za pomocą zewnętrznych i wewnętrznych miar jakości klasteryzacji. W rozprawie pokazano, że algorytm mean shift z jądrem kosinusowym jest w stanie uzyskać stosunkowo czyste klastry. Ponadto, na podstawie obserwacji z eksperymentów dotyczących klasteryzacji, została zaproponowana modyfikacja klasycznego systemu rozpoznawania języka. Modyfikacja ta polega na utworzeniu podmodeli dla każdego języka z wykorzystaniem algorytmu centroidów. Przeprowadzone eksperymenty potwierdzają, że zastosowanie podmodeli w połaczeniu z liniowymi klasyfikatorami pozwala uzyskać wyniki konkurencyjne dla wyników uzyskiwanych przy użyciu złożonych nieliniowych klasyfikatorów. Proponowane modyfikacje systemu pozwalają na zrównoleglenie oraz mogą być stosowane w istniejących systemach rozpoznawania języków opartych na i-wektorach.


Recenzje
Recenzja - prof. dr hab. Zygmunt Vetulani
Recenzja - dr hab. inż. Artur Janicki



Lista publikacji

2019/skacprza/start.1575416294.txt.gz · ostatnio zmienione: 2019/12/04 00:38 przez Stanisław Kacprzak