PRZEWODNICZĄCY I RADA DYSCYPLINY INFORMATYKI TECHNICZNEJ I TELEKOMUNIKACJI AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE |
|
---|---|
zapraszają na publiczną dyskusję nad rozprawą doktorską mgr. inż. Zbigniewa Kalety |
|
REGUŁOWY ALGORYTM AUTOMATYCZNEGO ROZSTRZYGANIA WIELOZNACZNOŚCI LEKSYKALNEJ NA GRANICY CZĘŚCI MOWY W TEKSTACH JĘZYKA POLSKIEGO | |
TERMIN: | 26 stycznia 2023 roku o godz. 13:00 |
MIEJSCE: | Online: Link do spotkania |
PROMOTOR: | prof. dr hab. Wiesław Lubaszewski, Uniwersytet Jagielloński w Krakowie |
PROMOTOR POMOCNICZY: | dr inż. Michał Korzycki |
RECENZENCI: | prof. dr hab. inż. Marek Skomorowski, Uniwersytet Jagielloński w Krakowie |
dr hab. Filip Graliński, prof. UAM, Uniwersytet im. Adama Mickiewicza w Poznaniu | |
Z rozprawą doktorską i opiniami recenzentów można się zapoznać w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30 |
mgr inż. Zbigniew Kaleta
Promotor: prof. dr hab. Wiesław Lubaszewski
Promotor pomocniczy: dr inż. Michał Korzycki
Dyscyplina: Informatyka Techniczna i Telekomunikacja
Przedstawiona rozprawa dotyczy problemu rozstrzygania wieloznaczności leksykalnej w tekstach w języku polskim. Ze względu na złożoność problemu, ogranicza się do wieloznaczności na granicy części mowy, np. jak (rzeczownik):jak (zaimek).
Zaproponowany algorytm opiera się na założeniu, że strukturę wypowiedzi organizuje czasownik. Algorytm bazuje na schematach syntaktycznych czasowników, zaczerpniętych ze Słownika Syntaktyczno-Generatywnego Czasowników Polskich. Wykrywa frazy rzeczownikowe w analizowanym zdaniu, a następnie dopasowuje je do schematu syntaktycznego czasownika, występującego w tym zdaniu. Hipoteza dotycząca części mowy poszczególnych tokenów, która pozwala uzyskać maksymalne pod względem liczby tokenów dopasowanie, zostaje uznana za poprawną i na jej podstawie dokonywane jest rozstrzygnięcie.
Druga część opisuje algorytm wykrywania par aspektowych czasowników w języku polskim. Problem jest pokrewny z rozstrzyganiem, gdyż informacja o parach aspektowych pozwala zwiększyć stosowalność algorytmu rozstrzygania przedstawionego w pierwszej części. Rozwiązanie bazuje na wiedzy lingwistycznej, konkretnie na regułach słowotwórczych: prefiksowej i sufiksowej. Algorytm, korzystając z bazy czasowników, wykrywa derywacje słowotwórcze między nimi, konstruując w ten sposób drzewa derywacyjne. Następnie, analizując te drzewa, określa które czasowniki stanowią pary aspektowe, a które nie posiadają odpowiednika aspektowego.
Przedstawione są także alternatywne rozwiązania tego problemu, korzystające z osadzeń słów oraz prostych sieci neuronowych. Rozważana jest możliwość połączenia podejścia regułowego (morfologicznego) i korzystającego z uczenia maszynowego.
– Tezy rozprawy:–
Jako tezy niniejszej rozprawy doktorskiej autor przedstawia następujące twierdzenia:
1. Jeśli w tekście polskim wystąpi forma fleksyjna reprezentująca jednostki słownika należące do dwu lub więcej różnych części mowy, to wieloznaczność tego typu może być rozstrzygana za pomocą schematów syntaktycznych czasowników.
2. W miejsce schematu syntaktycznego dla czasownika występującego w tekście można z dobrym skutkiem użyć schematu jego odpowiednika aspektowego.
3. Pary aspektowe czasowników można wykryć w sposób automatyczny, dysponując zbiorem czasowników z przypisanymi aspektami i korzystając z wiedzy o słowotwórstwie.
Recenzje
Rezenzja - prof. dr hab. inż. Marek Skomorowski
Rezenzja - dr hab. Filip Graliński, prof. UAM
Lista publikacji autora: