DZIEKAN i RADA WYDZIAŁU
INFORMATYKI, ELEKTRONIKI I TELEKOMUNIKACJI
AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE
zapraszają na
publiczą dyskusję nad rozprawą doktorską

mgr inż. Przemysława Maciołka
METODA ROZPOZNAWANIA DOKUMENTÓW W JĘZYKU POLSKIM OPARTA NA PŁYTKIEJ ANALIZIE SEMANTYCZNEJ
Dyskusja odbędzie się 24 kwietnia 2015 roku o godz. 13:00 w sali 1.19
pawilon D-17, ul. Kawiory 21, 30-059 Kraków
PROMOTOR: dr hab. inż. Grzegorz Dobrowolski, prof. n. - Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie
RECENZENCI: dr hab. inż. Grażyna Demenko, prof. n. - Uniwersytet im. Adama Mickiewicza w Poznaniu
Prof. dr hab. inż. Wiesław Lubaszewski - Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie
Z rozprawą doktorską i opiniami recenzentów można się zapoznać
w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30




Metoda rozpoznawania dokumentów w języku polskim oparta na płytkiej analizie semantycznej


mgr inż. Przemysław Maciołek


Promotor: dr hab. inż. Grzegorz Dobrowolski, prof. n. (AGH)
Dyscyplina: Informatyka


Rozprawa skupia się na problemie klasyfikacji dokumentów - automatycznemu przypisaniu do tekstu wszystkich pasujących do niego kategorii, które bazują na niesionej treści, a więc odzwierciedlają sens zawarty w danej wypowiedzi (dokumencie). Z punktu widzenia informatyki, problematyka dotyka głównie dwóch dziedzin: lingwistyki komputerowej (informatycznej), oraz metod sztucznej inteligencji. Obie są interdyscyplinarnymi gałęziami nauki, łączącymi badania humanistyczne z inżynierskimi.

Wraz ze specjalizacją klasyfikacji tekstu, pojawia się aspekt dostosowania metody do konkretnego zastosowania. Oczekiwać można iż mechanizm taki może działać nieco inaczej przy np. kategoryzacji wiadomości prasowych niż przy ocenie sentymentu wypowiedzi.

Równocześnie, zaobserwować można iż choć popularnie stosowane metody wektorowe sprawdzają się w praktyce dość dobrze, napotykaja one szereg istotnych ograniczeń związanych z możliwosciami reprezentowania przez nie treści dokumentu. Jednym z podstawowych problemów jest zagubienie informacji o kolejności występowania w danym tekście sekwencji zdań i wyrazów. Jedno z rozwiązań tego problemu proponował Schenker et al., gdzie zamiast ,,worka słów” użyto grafu do reprezentacji treści dokumentu, zachowując w ten sposób wiedzę o kolejności występowania wyrazów.

W toku wstępnie prowadzonych prac badawczych rozpoznano możliwość wzbogacenia takiej koncepcji o dodatkowe informacje uzyskane w wyniku płytkiej analizy semantycznej, takie jak kategorie gramatyczne poszczególnych wyrazów oraz ich możliwe sensy znaczeniowe

Teza rozprawy:– Jako tezę niniejszej rozprawy doktorskiej autor przedstawia następujące twierdzenie:

Zadanie rozpoznawania dokumentów tekstowych może być rozwiązane przy zastosowaniu autorskiej rodziny metod opartych o płytką analizę semantyczną, którą kształtować można w zależności od specyficznych właściwości użytego w tekście języka.

Zaproponowna została koncepcja rodziny metod, będąca usystemetyzowaną metodologią, pozwalająca na relatywnie łatwe kształtowanie docelowego mechanizmu budowy reprezentacji treści dokumentu, dopasowując go do konkretnego problemu. Pozwala ona definiować sposób wyboru (filtrowania) oraz generacji cech modelu, jak równieź określać reguły konstrukcji grafu, w zależności od potrzeb rozpoznawania danej klasy tekstów. Może zatem służyć do symulacji konkretnej kompetencji językowej, opracowanej pod kątem danego zastosowania.

Przedstawione zostały cztery warianty rodziny metod, dedykowane do wybranych problemów. Przeprowadzono na nich szereg testów, przy zastosowaniu kilku algorytmów klasyfikacji, analizując specyfikę wariantów i porównując je do metod wektorowych oraz metody Schenkera et. al. Uzyskane wyniki potwierdziły słuszność przyjętej tezy. Zgodnie z oczekiwaniami, warianty dedykowane do konkretnych problemów uzyskiwały dla nich statystycznie istotnie polepszenie rezultatów.

Za główny wkład badawczy autor uważa:

  1. Stworzenie koncepcji rodziny metod, wraz z przykładowymi wariantami - metodologię budowania specyficznej metody klasyfikacji tekstu, dedykowanej do danego zastosowania.
  2. Opracowanie rozbudowanego aparatu testującego metody klasyfikacji dokumentów, analizującego szerg metryk i porównującego statyczną istotność uzyskiwanych rezultatów.
  3. Zebranie i usystematyzowanie kilku kolekcji dokumentów w języku polskim, służących do przeprowdzania testów. Dokonano analizy ich charakterystyki oraz występujących między nimi różnic.
  4. Stworzonie tagera podstawowych kategorii gramatycznych dla jezyka polskiego, zaimplementowanego całkowicie w Javie i pozwalającego na łatwe wdrożenie w chmurze obliczeniowej.
  5. Zaproponowanie metody prostego wyboru cech z grafu, efektywnie ,,spłaszczającego” taką reprezentację do postaci wektora.
  6. Zastosowanie koncepcji rodziny metod w systemie CLUO, co wykazało realizowalność i celowość prowadzenia prac nad takim rozwiązaniem.

Uzyskane rezultaty wydają się zachęcać do prowadzenia dalszych prac badawczych:

  • Korzystając z zaprezentowanej koncepcji, poszukiwać można wariantów dedykowanych do kolejnych problemów, bądź lepiej rozwiązujących problemy już zdefiniowane.
  • Proponowana rodzina metod może posłużyć do klastrowania dokumentów, choćby wykorzystując algorytm centroid i używane obecnie miary odległości między grafami.
  • Wydaje się, że spory potencjał tkwi w kształtowaniu sposobu klasyfikacji wydobytych grafów, w tym ,,spłaszczaniu” ich do postaci wektorowej. Świadczą o tym np. prace Jianga et al.
  • Dysponując grafową reprezentacją tekstu i kształtując sposób jej budowania, można by stworzyć dobre podstawy do generowania streszczenia dokumentu, rozbudowując koncepcje zaprezentowane przez Mihalcea et al.


Ważniejsze publikacje dokotoranta:

  1. Maciołek P., Dobrowolski G.: Propozycja metody klasyfikacji dokumentów w języku polskim. Inżynieria wiedzy i systemy ekspertowe (eds. Adam Grzech et al.), Akademicka Oficyna Wydawnicza EXIT, Warszawa, Poland, 2009, pp. 53-64
  2. Maciołek P., Dobrowolski G.: Is shallow semantic analysis really that shallow? A study on improwing text classification performance. Proceedings of Computational Linguistics – Applications, IMCSIT Wisła, Poland, 2010, pp.181-186
  3. Maciołek P.: Internet a OSINT – szanse i praktyczne zastosowania. Biały wywiad : otwarte źródła informacji – wokół teorii i praktyki (eds. W. Filipkowski, W. Mądrzejowski), C. H. Beck, Warszawa, Poland, 2012
  4. Maciołek P., Dobrowolski G.: Using shallow semantic analysis and graph modelling for document classification. International Journal of Data Mining, Modelling and Management Vol. 5, No. 2, 2013, pp 123-137
  5. Maciołek P., Dobrowolski G.: CLUO: Web-Scale Text Mining System for Open Source Intelligence Purposes. Computer Science : rocznik Akademii Górniczo-Hutniczej imienia Stanisława Staszica w Krakowie Vol. 14, No. 1, 2013, Kraków, Poland, pp. 45-62
2015/pmaciolek/start.txt · ostatnio zmienione: 2015/04/14 02:33 przez Przemysław Maciołek