\\

^   **DZIEKAN i RADA WYDZIAŁU**    \\    **INFORMATYKI, ELEKTRONIKI I TELEKOMUNIKACJI**    \\    **AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE**   ^^
|   zapraszają na    \\    publiczną dyskusję nad rozprawą doktorską    \\ \\  //mgr inż. Karola Grzegorczyka//      \\                 ||
|  **VECTOR REPRESENTATIONS OF TEXT DATA IN DEEP LEARNING**  ||
^  Termin:|18 grudnia 2018r. o godz. 13.15  |
^  Miejsce:|Sala 2.36, pawilon D-17, ul. Kawiory 21, Kraków |
^  **PROMOTOR:**|prof. dr hab. inż. Witold Dzwinel,  Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie |
^  **PROMOTOR POMOCNICZY:**|dr inż. Marcin Kurdziel,  Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie |
^  **RECENZENCI:**|prof. dr hab. Stanisław Matwin, Dalhousie University |
^  **            **|dr hab. inż. Rafał Scherer, prof. nadzw., Politechnika Częstochowska |
|  Z rozprawą doktorską i opiniami recenzentów można się zapoznać \\ w Czytelni   Biblioteki Głównej AGH, al. Mickiewicza 30  ||

\\

==== Vector representations of text data in deep learning ====

//mgr inż. Karol Grzegorczyk//

**Promotor:** prof. dr hab. inż. Witold Dzwinel \\
**Promotor pomocniczy:** dr inż. Marcin Kurdziel \\
**Dyscyplina:** Informatyka

===Streszczenie===

W pracy prezentuję rezultaty moich badań nad wektorowymi reprezentacjami danych tekstowych.  Głównymi owocami tych prac są dwa nowe modele neuronowe. Pierwszy z nich umożliwia budowanie reprezentacji wektorowych na poziomie dokumentów a drugi na poziomie wyrazów.

W zakresie wektorowych reprezentacji dokumentów proponuję model Binary Paragraph Vector – sieć neuronową uczącą się binarnych reprezentacji dokumentów tekstowych, które zachowują ich podobieństwo semantyczne. Reprezentacje te umożliwiają szybkie wyszukiwanie informacji związanej z dokumentem referencyjnym. Rezultaty eksperymentalnej ewaluacji zaproponowanego modelu demonstrują, że buduje on reprezentacje znacznie bardziej precyzyjne, niż znana z literatury popularna metoda Semantic Hashing. Pokazuję także, że może on być skutecznie uczony na generycznych korpusach tekstu i następnie wykorzystany do budowy reprezentacji dla dokumentów specyficznych dla danej dziedziny. Proponuję również wariant modelu Binary Paragraph Vector uczący się jednocześnie reprezentacji binarnych i rzeczywistoliczbowych. Zaletą modeli Binary Paragraph Vector jest możliwość budowania reprezentacji bezpośrednio z danych tekstowych, bez potrzeby korzystania z algorytmów haszujących zachowujących lokalność.

Drugi proponowany model – Disambiguated Skip-gram – umożliwia budowanie  wektorowych reprezentacji słów, które uwzględniają ich wieloznaczność. Model ten posiada prostą interpretację probabilistyczną. Co więcej, w odróżnieniu od istniejących rozwiązań tego typu jest on różniczkowalny ze względu na wszystkie swoje parametry. Umożliwia to efektywne trenowanie go algorytmem wstecznej propagacji błędu. Disambiguated Skip-gram jest modelem parametrycznym, tzn. wymaga jawnego podania liczby znaczeń, wspólnej dla wszystkich słów. Z racji na to, że w rzeczywistości słowa mają różne liczby znaczeń, w pracy prezentuję i ewaluuję heurystykę pozwalającą wnioskować, które słowa są wieloznaczne, i w jakim stopniu, a które nie. W tym celu szacuję prawdopodobieństwa brzegowe znaczeń. Definiuję również metodę regularyzacji pozwalającą kontrolować oczekiwaną liczbę znaczeń. W pracy prezentuję obszerną ilościową ewaluację modelu Disambiguated Skip-gram i pokazuję, że jest on lepszy od konkurencyjnych rozwiązań w trzech z czterech standardowych zbiorów testowych. Załączam także ewaluację jakościową w postaci zobrazowania podobieństwa pomiędzy wybranymi wektorowymi reprezentacjami znaczeń.

Rozprawa rozpoczyna się od dogłębnego wprowadzenia teoretycznego do zagadnień związanych z budowaniem wektorowych reprezentacji danych tekstowych. Podsumowana jest natomiast wnioskami z wykonanych eksperymentów wraz z przedstawieniem możliwych kierunków dalszych badań. Do pracy załączam opis wykorzystanych zbiorów danych i oprogramowania. 

===Pełna treść rozprawy===

{{https://arxiv.org/pdf/1901.01695.pdf|Vector representations of text data in deep learning}}

===Recenzje===

{{:2018:kgr:recenzja_prof_matwin.pdf|prof. dr hab. Stanisław Matwin}} \\
{{:2018:kgr:recenzja_prof_scherer.pdf|dr hab. inż. Rafał Scherer, prof. nadzw.}}

===Publikacje doktoranta===

[[https://bpp.agh.edu.pl/autor/grzegorczyk-karol-16087|BPP AGH]] \\
[[https://scholar.google.com/citations?user=tyldmhAAAAAJ|Google Scholar]]