DZIEKAN i RADA WYDZIAŁU INFORMATYKI, ELEKTRONIKI I TELEKOMUNIKACJI AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE |
---|
zapraszają na publiczą dyskusję nad rozprawą doktorską mgr inż. Przemysława Maciołka |
METODA ROZPOZNAWANIA DOKUMENTÓW W JĘZYKU POLSKIM OPARTA NA PŁYTKIEJ ANALIZIE SEMANTYCZNEJ |
Dyskusja odbędzie się 24 kwietnia 2015 roku o godz. 13:00 w sali 1.19 pawilon D-17, ul. Kawiory 21, 30-059 Kraków |
PROMOTOR: dr hab. inż. Grzegorz Dobrowolski, prof. n. - Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie |
RECENZENCI: dr hab. inż. Grażyna Demenko, prof. n. - Uniwersytet im. Adama Mickiewicza w Poznaniu |
Prof. dr hab. inż. Wiesław Lubaszewski - Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie |
Z rozprawą doktorską i opiniami recenzentów można się zapoznać w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30 |
mgr inż. Przemysław Maciołek
Promotor: dr hab. inż. Grzegorz Dobrowolski, prof. n. (AGH)
Dyscyplina: Informatyka
Rozprawa skupia się na problemie klasyfikacji dokumentów - automatycznemu przypisaniu do tekstu wszystkich pasujących do niego kategorii, które bazują na niesionej treści, a więc odzwierciedlają sens zawarty w danej wypowiedzi (dokumencie). Z punktu widzenia informatyki, problematyka dotyka głównie dwóch dziedzin: lingwistyki komputerowej (informatycznej), oraz metod sztucznej inteligencji. Obie są interdyscyplinarnymi gałęziami nauki, łączącymi badania humanistyczne z inżynierskimi.
Wraz ze specjalizacją klasyfikacji tekstu, pojawia się aspekt dostosowania metody do konkretnego zastosowania. Oczekiwać można iż mechanizm taki może działać nieco inaczej przy np. kategoryzacji wiadomości prasowych niż przy ocenie sentymentu wypowiedzi.
Równocześnie, zaobserwować można iż choć popularnie stosowane metody wektorowe sprawdzają się w praktyce dość dobrze, napotykaja one szereg istotnych ograniczeń związanych z możliwosciami reprezentowania przez nie treści dokumentu. Jednym z podstawowych problemów jest zagubienie informacji o kolejności występowania w danym tekście sekwencji zdań i wyrazów. Jedno z rozwiązań tego problemu proponował Schenker et al., gdzie zamiast ,,worka słów„ użyto grafu do reprezentacji treści dokumentu, zachowując w ten sposób wiedzę o kolejności występowania wyrazów.
W toku wstępnie prowadzonych prac badawczych rozpoznano możliwość wzbogacenia takiej koncepcji o dodatkowe informacje uzyskane w wyniku płytkiej analizy semantycznej, takie jak kategorie gramatyczne poszczególnych wyrazów oraz ich możliwe sensy znaczeniowe
– Teza rozprawy:– Jako tezę niniejszej rozprawy doktorskiej autor przedstawia następujące twierdzenie:
Zadanie rozpoznawania dokumentów tekstowych może być rozwiązane przy zastosowaniu autorskiej rodziny metod opartych o płytką analizę semantyczną, którą kształtować można w zależności od specyficznych właściwości użytego w tekście języka.
Zaproponowna została koncepcja rodziny metod, będąca usystemetyzowaną metodologią, pozwalająca na relatywnie łatwe kształtowanie docelowego mechanizmu budowy reprezentacji treści dokumentu, dopasowując go do konkretnego problemu. Pozwala ona definiować sposób wyboru (filtrowania) oraz generacji cech modelu, jak równieź określać reguły konstrukcji grafu, w zależności od potrzeb rozpoznawania danej klasy tekstów. Może zatem służyć do symulacji konkretnej kompetencji językowej, opracowanej pod kątem danego zastosowania.
Przedstawione zostały cztery warianty rodziny metod, dedykowane do wybranych problemów. Przeprowadzono na nich szereg testów, przy zastosowaniu kilku algorytmów klasyfikacji, analizując specyfikę wariantów i porównując je do metod wektorowych oraz metody Schenkera et. al. Uzyskane wyniki potwierdziły słuszność przyjętej tezy. Zgodnie z oczekiwaniami, warianty dedykowane do konkretnych problemów uzyskiwały dla nich statystycznie istotnie polepszenie rezultatów.
Za główny wkład badawczy autor uważa:
Uzyskane rezultaty wydają się zachęcać do prowadzenia dalszych prac badawczych:
Ważniejsze publikacje dokotoranta: