Doktoraty Wydziału IET

DZIEKAN i RADA WYDZIAŁU INFORMATYKI, ELEKTRONIKI I TELEKOMUNIKACJI AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE
zapraszają na publiczą dyskusję nad rozprawą doktorską mgr inż. Przemysława Maciołka
METODA ROZPOZNAWANIA DOKUMENTÓW W JĘZYKU POLSKIM OPARTA NA PŁYTKIEJ ANALIZIE SEMANTYCZNEJ
Dyskusja odbędzie się 24 kwietnia 2015 roku o godz. 13:00 w sali 1.19 pawilon D-17, ul. Kawiory 21, 30-059 Kraków
PROMOTOR: dr hab. inż. Grzegorz Dobrowolski, prof. n. - Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie
RECENZENCI: dr hab. inż. Grażyna Demenko, prof. n. - Uniwersytet im. Adama Mickiewicza w Poznaniu
Prof. dr hab. inż. Wiesław Lubaszewski - Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie
Z rozprawą doktorską i opiniami recenzentów można się zapoznać w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30

Metoda rozpoznawania dokumentów w języku polskim oparta na płytkiej analizie semantycznej

mgr inż. Przemysław Maciołek

Promotor: dr hab. inż. Grzegorz Dobrowolski, prof. n. (AGH)
Dyscyplina: Informatyka

Rozprawa skupia się na problemie klasyfikacji dokumentów - automatycznemu przypisaniu do tekstu wszystkich pasujących do niego kategorii, które bazują na niesionej treści, a więc odzwierciedlają sens zawarty w danej wypowiedzi (dokumencie). Z punktu widzenia informatyki, problematyka dotyka głównie dwóch dziedzin: lingwistyki komputerowej (informatycznej), oraz metod sztucznej inteligencji. Obie są interdyscyplinarnymi gałęziami nauki, łączącymi badania humanistyczne z inżynierskimi.

Wraz ze specjalizacją klasyfikacji tekstu, pojawia się aspekt dostosowania metody do konkretnego zastosowania. Oczekiwać można iż mechanizm taki może działać nieco inaczej przy np. kategoryzacji wiadomości prasowych niż przy ocenie sentymentu wypowiedzi.

Równocześnie, zaobserwować można iż choć popularnie stosowane metody wektorowe sprawdzają się w praktyce dość dobrze, napotykaja one szereg istotnych ograniczeń związanych z możliwosciami reprezentowania przez nie treści dokumentu. Jednym z podstawowych problemów jest zagubienie informacji o kolejności występowania w danym tekście sekwencji zdań i wyrazów. Jedno z rozwiązań tego problemu proponował Schenker et al., gdzie zamiast ,,worka słów„ użyto grafu do reprezentacji treści dokumentu, zachowując w ten sposób wiedzę o kolejności występowania wyrazów.

W toku wstępnie prowadzonych prac badawczych rozpoznano możliwość wzbogacenia takiej koncepcji o dodatkowe informacje uzyskane w wyniku płytkiej analizy semantycznej, takie jak kategorie gramatyczne poszczególnych wyrazów oraz ich możliwe sensy znaczeniowe

– Teza rozprawy:– Jako tezę niniejszej rozprawy doktorskiej autor przedstawia następujące twierdzenie:

Zadanie rozpoznawania dokumentów tekstowych może być rozwiązane przy zastosowaniu autorskiej rodziny metod opartych o płytką analizę semantyczną, którą kształtować można w zależności od specyficznych właściwości użytego w tekście języka.

Zaproponowna została koncepcja rodziny metod, będąca usystemetyzowaną metodologią, pozwalająca na relatywnie łatwe kształtowanie docelowego mechanizmu budowy reprezentacji treści dokumentu, dopasowując go do konkretnego problemu. Pozwala ona definiować sposób wyboru (filtrowania) oraz generacji cech modelu, jak równieź określać reguły konstrukcji grafu, w zależności od potrzeb rozpoznawania danej klasy tekstów. Może zatem służyć do symulacji konkretnej kompetencji językowej, opracowanej pod kątem danego zastosowania.

Przedstawione zostały cztery warianty rodziny metod, dedykowane do wybranych problemów. Przeprowadzono na nich szereg testów, przy zastosowaniu kilku algorytmów klasyfikacji, analizując specyfikę wariantów i porównując je do metod wektorowych oraz metody Schenkera et. al. Uzyskane wyniki potwierdziły słuszność przyjętej tezy. Zgodnie z oczekiwaniami, warianty dedykowane do konkretnych problemów uzyskiwały dla nich statystycznie istotnie polepszenie rezultatów.

Za główny wkład badawczy autor uważa:

Stworzenie koncepcji rodziny metod, wraz z przykładowymi wariantami - metodologię budowania specyficznej metody klasyfikacji tekstu, dedykowanej do danego zastosowania.
Opracowanie rozbudowanego aparatu testującego metody klasyfikacji dokumentów, analizującego szerg metryk i porównującego statyczną istotność uzyskiwanych rezultatów.
Zebranie i usystematyzowanie kilku kolekcji dokumentów w języku polskim, służących do przeprowdzania testów. Dokonano analizy ich charakterystyki oraz występujących między nimi różnic.
Stworzonie tagera podstawowych kategorii gramatycznych dla jezyka polskiego, zaimplementowanego całkowicie w Javie i pozwalającego na łatwe wdrożenie w chmurze obliczeniowej.
Zaproponowanie metody prostego wyboru cech z grafu, efektywnie ,,spłaszczającego” taką reprezentację do postaci wektora.
Zastosowanie koncepcji rodziny metod w systemie CLUO, co wykazało realizowalność i celowość prowadzenia prac nad takim rozwiązaniem.

Uzyskane rezultaty wydają się zachęcać do prowadzenia dalszych prac badawczych:

Korzystając z zaprezentowanej koncepcji, poszukiwać można wariantów dedykowanych do kolejnych problemów, bądź lepiej rozwiązujących problemy już zdefiniowane.
Proponowana rodzina metod może posłużyć do klastrowania dokumentów, choćby wykorzystując algorytm centroid i używane obecnie miary odległości między grafami.
Wydaje się, że spory potencjał tkwi w kształtowaniu sposobu klasyfikacji wydobytych grafów, w tym ,,spłaszczaniu„ ich do postaci wektorowej. Świadczą o tym np. prace Jianga et al.
Dysponując grafową reprezentacją tekstu i kształtując sposób jej budowania, można by stworzyć dobre podstawy do generowania streszczenia dokumentu, rozbudowując koncepcje zaprezentowane przez Mihalcea et al.

Ważniejsze publikacje dokotoranta:

Maciołek P., Dobrowolski G.: Propozycja metody klasyfikacji dokumentów w języku polskim. Inżynieria wiedzy i systemy ekspertowe (eds. Adam Grzech et al.), Akademicka Oficyna Wydawnicza EXIT, Warszawa, Poland, 2009, pp. 53-64
Maciołek P., Dobrowolski G.: Is shallow semantic analysis really that shallow? A study on improwing text classification performance. Proceedings of Computational Linguistics – Applications, IMCSIT Wisła, Poland, 2010, pp.181-186
Maciołek P.: Internet a OSINT – szanse i praktyczne zastosowania. Biały wywiad : otwarte źródła informacji – wokół teorii i praktyki (eds. W. Filipkowski, W. Mądrzejowski), C. H. Beck, Warszawa, Poland, 2012
Maciołek P., Dobrowolski G.: Using shallow semantic analysis and graph modelling for document classification. International Journal of Data Mining, Modelling and Management Vol. 5, No. 2, 2013, pp 123-137
Maciołek P., Dobrowolski G.: CLUO: Web-Scale Text Mining System for Open Source Intelligence Purposes. Computer Science : rocznik Akademii Górniczo-Hutniczej imienia Stanisława Staszica w Krakowie Vol. 14, No. 1, 2013, Kraków, Poland, pp. 45-62

Doktoraty Wydziału IET

Narzędzia użytkownika

Narzędzia witryny

Metoda rozpoznawania dokumentów w języku polskim oparta na płytkiej analizie semantycznej

Narzędzia strony