Zaproszenie na obronę pracy doktorskiej

DZIEKAN i RADA WYDZIAŁU
INFORMATYKI, ELEKTRONIKI I TELEKOMUNIKACJI
AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE
zapraszają na
publiczną dyskusję nad rozprawą doktorską

mgr inż. Pawła Chrząszcza
AUTOMATYCZNA EKSTRAKCJA I KLASYFIKACJA SEMANTYCZNA WIELOSEGMENTOWYCH JEDNOSTEK LEKSYKALNYCH JĘZYKA NATURALNEGO
Dyskusja odbędzie się 3 marca 2016 roku o godz. 13:00 w sali 1.36
pawilon D-17, ul. Kawiory 21, 30-059 Kraków
PROMOTOR: prof. dr hab. Wiesław Lubaszewski – Akademia Górniczo-Hutnicza im. Stanisława Staszica
RECENZENCI: prof. dr hab. inż. Marek Ogiela - Akademia Górniczo-Hutnicza im. Stanisława Staszica
dr hab. inż. Grażyna Demenko, prof. n. UAM – Uniwersytet im. Adama Mickiewicza w Poznaniu
Z rozprawą doktorską i opiniami recenzentów można się zapoznać
w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30




Automatyczna ekstrakcja i klasyfikacja semantyczna wielosegmentowych jednostek leksykalnych języka naturalnego

mgr inż. Paweł Chrząszcz


Promotor: prof. dr hab. Wiesław Lubaszewski (AGH)
Dyscyplina: Informatyka


Przetwarzanie języka naturalnego wymaga użycia algorytmów ekstrakcji cech syntaktycznych z tekstu. Służą do tego narzędzia wyposażone w słowniki fleksyjne oraz statystyczne algorytmy tagujące. Cechy te mogą jednak okazać się niewystarczające, gdy ekstrahowane związki dotyczą semantyki, czyli znaczenia słów. W takim przypadku należy użyć zasobów semantycznych, takich jak ontologia lub sieć semantyczna. Głównym rodzajem słów, których nie odnajdziemy w wyżej wymienionych zasobach, są wielosegmentowe jednostki leksykalne (inaczej: wyrazy wielosegmentowe), czyli wyrażenia składające się z kilku segmentów, które posiadają własne, odrębne znaczenie. Przykładami takich wyrazów są terminy („tlenek węgla”), idiomy („panna młoda”, „mówić trzy po trzy”), nazwy własne („Polski Związek Wędkarski”) czy też nazwy osób („Lech Wałęsa”). Potrzebujemy więc zasobów językowych zawierających wyrazy wielosegmentowe oraz metod ich ekstrakcji z tekstu. Dodatkowo przydatna byłaby płytka klasyfikacja semantyczna, ograniczająca się do przydzielenia wyrazowi jedynie prostej etykiety semantycznej – np. słowu „pies” przydzielimy etykietę „zwierzę”. Pozwoli to na przynajmniej częściowy opis znaczenia, a jeżeli etykiety same znajdą się w sieci semantycznej, wówczas będziemy mogli z nią powiązać również etykietowane słowo. Brak zasobów zawierających wyrazy wielosegmentowe dla języka polskiego powoduje, że uzasadnione są badania ukierunkowane na ich ekstrakcję z tekstu. Pozwala to sformułować pierwszą tezę pracy.

Teza 1: Możliwe jest opracowanie algorytmu ekstrahującego w sposób automatyczny wyrazy wielosegmentowe z tekstu w języku polskim, wykorzystującego jako źródła danych słownik fleksyjny i Wikipedię.

Algorytm ekstrakcji może działać samodzielnie, jednak przede wszystkim może on zostać użyty do stworzenia słownika – wynika stąd druga teza pracy.

Teza 2: Możliwe jest utworzenie w sposób automatyczny słownika wyrazów wielosegmentowych z haseł Wikipedii oraz wyrazów wielosegmentowych wyekstrahowanych przy pomocy algorytmu opisanego w Tezie 1.

W ramach pracy zaprojektowano i zaimplementowano system ekstrakcji wyrazów wielosegmentowych, który posługuje się czterema metodami:

  • DM – wykorzystuje Wikipedię jako słownik wyrazów wielosegmentowych.
  • pDM – wykorzystuje wzorce odmiany haseł Wikipedii wyekstrahowane z linków przychodzących.
  • SM – tworzy na podstawie linków przychodzących do haseł wzorce syntaktyczne. Wzorce te są następnie wykorzystywane do ekstrakcji nowych wyrazów wielosegmentowych.
  • SDM – przekształca wynik działania metody SM do postaci słownikowej i w ten sposób powiększa słownik używany przez metodę pDM.

Używając powyższych metod osiągnięto wartości wskaźników precision i recall przekraczające 70% dla próbki testowej, co wykazuje prawdziwość Tezy 1. Dodatkowo metoda SM pozwoliła na utworzenie słownika zawierającego około miliona wyrażeń, z których ponad 75% to poprawne wyrazy wielosegmentowe. W ten sposób wykazano prawdziwość Tezy 2. Ponadto w pracy przedstawiono algorytm ekstrakcji etykiet semantycznych dla haseł Wikipedii i przedyskutowano możliwości ekstrakcji takich etykiet dla wyrazów wielosegmentowych ekstrahowanych z tekstu.

Autoreferat

Pełny tekst pracy



Recenzje pracy

Wybrane publikacje doktoranta

  1. Chrząszcz P.: Extraction of Polish multiword expressions. Proceedings of the 11th International Workshop on Natural Language Processing and Cognitive Science (NLPCS), s. 245-256, De Gruyter, 2014
  2. Chrząszcz P.: Enrichment of inflection dictionaries: automatic extraction of semantic labels from encyclopedic definitions. Proceedings of the 9th International Workshop on Natural Language Processing and Cognitive Science (NLPCS, w połączeniu z ICEIS), s. 106-119, SciTePress, 2012
  3. Kuta M., Chrząszcz P., Kitowski J.: A case study of algorithms for morphosyntactic tagging of Polish language. Computing and Informatics, tom. 26, nr. 6, 2007, s. 627-647.


2016/chrzaszcz/start.txt · ostatnio zmienione: 2016/02/20 00:04 przez Paweł Chrzaszcz