DZIEKAN i RADA WYDZIAŁU
INFORMATYKI, ELEKTRONIKI I TELEKOMUNIKACJI
AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE
zapraszają na
publiczną dyskusję nad rozprawą doktorską

mgr inż. Piotra Wójcika
Random Projection in Deep Neural Networks
Termin:4 grudnia 2018 roku o godz. 13:00
Miejsce: Centrum Informatyki AGH, s. 1.20
pawilon D-17, ul. Kawiory 21, 30-059 Kraków
PROMOTOR:prof. dr hab. inż. Witold Dzwinel, Akademia Górniczo-Hutnicza im. St. Staszica w Krakowie
PROMOTOR POMOCNICZY:dr inż. Marcin Kurdziel, Akademia Górniczo-Hutnicza im. St. Staszica w Krakowie
RECENZENCI:prof. dr hab. Stanisław Matwin, Dalhousie University Halifax
dr hab. inż. Mikołaj Morzy, prof. n., Politechnika Poznańska
Z rozprawą doktorską i opiniami recenzentów można się zapoznać
w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30




Random Projection in Deep Neural Networks


mgr inż. Piotr Wójcik


Promotor: prof. dr hab. inż. Witold Dzwinel (AGH)
Promotor pomocniczy: dr inż. Marcin Kurdziel (AGH)
Dyscyplina: Informatyka


Praca prezentuje zastosowania metody rzutu przypadkowego (RP) w głębokich sieciach neuronowych. W pracy skupiono się na dwóch obszarach, w których użycie metody RP poprawia ich skuteczność: na efektywnym uczeniu głębokich sieci na danych wysokowymiarowych oraz na inicjalizacji parametrów sieci. Rozważono kilka klasycznych oraz niedawno zaproponowanych konstrukcji macierzy RP: macierze Gaussa, Achlioptasa i Li oraz metody subsampled randomized Hadamard transform (SRHT) i Count Sketch.

W pierwszym z rozważanych obszarów zastosowań metoda RP jest włączana do architektury sieci jako warstwa wejściowa (warstwa RP). Umożliwia to efektywne uczenie głębokich sieci neuronowych na danych pozbawionych struktury, reprezentowanych przez rzadkie, wysokowymiarowe wektory cech. Do tej pory analiza takich danych przy pomocy sieci neuronowych była trudna, lub wręcz niemożliwa, ze względu na wysoki koszt obliczeniowy wynikający z ogromnej liczby wag w pierwszej warstwie sieci. W pracy pokazano, że dzięki użyciu warstwy wejściowej której wagi zostały zainicjalizowane elementami macierzy RP możliwe jest efektywne trenowanie głębokich sieci na tego typu danych. Zostały rozważone dwa warianty zaproponowanej warstwy RP: z ustalonymi wagami oraz z wagami douczanymi w trakcie treningu. Przedstawiono również kilka modyfikacji architektury sieci oraz metod jej trenowania, dzięki którym możliwe jest uczenie sieci na danych zawierających dziesiątki milionów przykładów uczących o wymiarowości przekraczającej miliony cech. Pozwoliło to uzyskać wyniki porównywalne lub lepsze od najlepszych wyników publikowanych w literaturze dla kilku dużych problemów klasyfikacji danych wielowymiarowych. Eksperymenty z różnymi konstrukcjami RP pokazały również, że najlepsze wyniki osiągają sieci z douczaną warstwą RP typu Count Sketch.

W drugim obszarze zastosowań macierz RP wykorzystana jest do inicjalizacji wag sieci neuronowej. Inicjalizacja parametrów sieci przy pomocy elementów macierzy rzutu przypadkowego pozwoliła poprawić skuteczność residualnych sieci konwolucyjnych – modeli osiągających obecnie najlepsze wyniki w dziedzinie rozpoznawania obrazów. Eksperymenty wykazały, że najwyższą skuteczność osiągają sieci inicjalizowane gęstymi macierzami RP, których kolumny są bliskie ortogonalnym (np. konstrukcja SRHT).

Teza rozprawy:– Jako tezę niniejszej rozprawy doktorskiej autor przedstawia następujące twierdzenie:

Metoda rzutu przypadkowego pozwala trenować głębokie sieci neuronowe na danych pozbawionych struktury, reprezentowanych przez rzadkie, wysokowymiarowe wektory cech, a zastosowana jako metoda inicjalizacji wag głębokich sieci, może poprawić ich wydajność.


Praca udostępniona publicznie

Recenzje

prof. dr hab. Stanisław Matwin, Dalhousie University Halifax

dr hab. inż. Mikołaj Morzy, prof. n., Politechnika Poznańska



Ważniejsze publikacje doktoranta:

  1. Piotr Iwo Wójcik, Marcin Kurdziel. 2018. Training neural networks on highdimensional data using random projection. Pattern Analysis and Applications, doi: 10.1007/s10044-018-0697-0.
  2. Karol Grzegorczyk, Marcin Kurdziel, Piotr Iwo Wójcik. 2016. Encouraging orthogonality between weight vectors in pretrained deep neural networks. Neurocomputing, 202 (2016), 84–90.
  3. Karol Grzegorczyk, Marcin Kurdziel, Piotr Iwo Wójcik. 2016. Implementing deep learning algorithms on graphics processor units. Parallel Processing and Applied Mathematics. PPAM 2015. Lecture Notes in Computer Science, vol. 9573, 473–482.
  4. Karol Grzegorczyk, Marcin Kurdziel, Piotr Iwo Wójcik. 2015. Effects of sparse initialization in deep belief networks. Computer Science, 16, 4 (2015), 313–327.
  5. Piotr Iwo Wójcik, Marcin Kurdziel. 2017. Random projection initialization for deep neural networks. 25th European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning (ESANN’2017), April 26–28, 2017, Bruges, Belgium.
  6. Maciej Malawski, Maciej Kuzniar, Piotr Wójcik, Marian Bubak. 2013. How to use Google App Engine for free computing. IEEE Internet Computing, 17, 1 (2013), 50–59.
  7. Piotr Iwo Wójcik, Thérèse Ouellet, Margaret Balcerzak, Witold Dzwinel. 2015. Identification of biomarker genes for resistance to a pathogen by a novel method for meta-analysis of single-channel microarray datasets. Journal of Bioinformatics and Computational Biology, 13, 4 (2015), 1550013.
2018/pwojcik/start.txt · ostatnio zmienione: 2018/11/21 21:31 przez Piotr Wójcik