DZIEKAN i RADA WYDZIAŁU
INFORMATYKI, ELEKTRONIKI I TELEKOMUNIKACJI
AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE
zapraszają na
publiczną dyskusję nad rozprawą doktorską

mgr inż. Karola Grzegorczyka
VECTOR REPRESENTATIONS OF TEXT DATA IN DEEP LEARNING
Termin:18 grudnia 2018r. o godz. 13.15
Miejsce:Sala 2.36, pawilon D-17, ul. Kawiory 21, Kraków
PROMOTOR:prof. dr hab. inż. Witold Dzwinel, Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie
PROMOTOR POMOCNICZY:dr inż. Marcin Kurdziel, Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie
RECENZENCI:prof. dr hab. Stanisław Matwin, Dalhousie University
dr hab. inż. Rafał Scherer, prof. nadzw., Politechnika Częstochowska
Z rozprawą doktorską i opiniami recenzentów można się zapoznać
w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30


Vector representations of text data in deep learning

mgr inż. Karol Grzegorczyk

Promotor: prof. dr hab. inż. Witold Dzwinel
Promotor pomocniczy: dr inż. Marcin Kurdziel
Dyscyplina: Informatyka

Streszczenie

W pracy prezentuję rezultaty moich badań nad wektorowymi reprezentacjami danych tekstowych. Głównymi owocami tych prac są dwa nowe modele neuronowe. Pierwszy z nich umożliwia budowanie reprezentacji wektorowych na poziomie dokumentów a drugi na poziomie wyrazów.

W zakresie wektorowych reprezentacji dokumentów proponuję model Binary Paragraph Vector – sieć neuronową uczącą się binarnych reprezentacji dokumentów tekstowych, które zachowują ich podobieństwo semantyczne. Reprezentacje te umożliwiają szybkie wyszukiwanie informacji związanej z dokumentem referencyjnym. Rezultaty eksperymentalnej ewaluacji zaproponowanego modelu demonstrują, że buduje on reprezentacje znacznie bardziej precyzyjne, niż znana z literatury popularna metoda Semantic Hashing. Pokazuję także, że może on być skutecznie uczony na generycznych korpusach tekstu i następnie wykorzystany do budowy reprezentacji dla dokumentów specyficznych dla danej dziedziny. Proponuję również wariant modelu Binary Paragraph Vector uczący się jednocześnie reprezentacji binarnych i rzeczywistoliczbowych. Zaletą modeli Binary Paragraph Vector jest możliwość budowania reprezentacji bezpośrednio z danych tekstowych, bez potrzeby korzystania z algorytmów haszujących zachowujących lokalność.

Drugi proponowany model – Disambiguated Skip-gram – umożliwia budowanie wektorowych reprezentacji słów, które uwzględniają ich wieloznaczność. Model ten posiada prostą interpretację probabilistyczną. Co więcej, w odróżnieniu od istniejących rozwiązań tego typu jest on różniczkowalny ze względu na wszystkie swoje parametry. Umożliwia to efektywne trenowanie go algorytmem wstecznej propagacji błędu. Disambiguated Skip-gram jest modelem parametrycznym, tzn. wymaga jawnego podania liczby znaczeń, wspólnej dla wszystkich słów. Z racji na to, że w rzeczywistości słowa mają różne liczby znaczeń, w pracy prezentuję i ewaluuję heurystykę pozwalającą wnioskować, które słowa są wieloznaczne, i w jakim stopniu, a które nie. W tym celu szacuję prawdopodobieństwa brzegowe znaczeń. Definiuję również metodę regularyzacji pozwalającą kontrolować oczekiwaną liczbę znaczeń. W pracy prezentuję obszerną ilościową ewaluację modelu Disambiguated Skip-gram i pokazuję, że jest on lepszy od konkurencyjnych rozwiązań w trzech z czterech standardowych zbiorów testowych. Załączam także ewaluację jakościową w postaci zobrazowania podobieństwa pomiędzy wybranymi wektorowymi reprezentacjami znaczeń.

Rozprawa rozpoczyna się od dogłębnego wprowadzenia teoretycznego do zagadnień związanych z budowaniem wektorowych reprezentacji danych tekstowych. Podsumowana jest natomiast wnioskami z wykonanych eksperymentów wraz z przedstawieniem możliwych kierunków dalszych badań. Do pracy załączam opis wykorzystanych zbiorów danych i oprogramowania.

Pełna treść rozprawy

Recenzje

Publikacje doktoranta

2018/kgr/start.txt · ostatnio zmienione: 2019/01/08 20:51 przez Karol Grzegorczyk