DZIEKAN i RADA WYDZIAŁU
INFORMATYKI, ELEKTRONIKI I TELEKOMUNIKACJI
AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE
zapraszają na
publiczą dyskusję nad rozprawą doktorską

mgr inż. Macieja Woźniaka
Trace theory based isogeometric solvers for different parallel architectures
Termin:19 października 2017 roku o godz. 12:30
Miejsce:Centrum Informatyki AGH, s. 1.19
pawilon D-17, ul. Kawiory 21, 30-059 Kraków
PROMOTOR:dr hab. Maciej Paszyński, prof. n. AGH, Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie
RECENZENCI:dr hab. Piotr Kalita, Uniwersytet Jagiellonski
dr Ignacio Muga Urquiza, Pontifical Catholic University of Valparaíso, Chile
Z rozprawą doktorską i opiniami recenzentów można się zapoznać
w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30




Trace theory based isogeometric solvers for different parallel architectures


mgr inż. Maciej Woźniak


Promotor: dr hab. Maciej Paszyński, prof. n. AGH
Dyscyplina: Informatyka


Abstract:
In this thesis we present a theoretical estimation of the computational costs for isogeometric multi-frontal direct solver executed on parallel distributed memory machines. We estimate theoretically both the computational cost and the communication cost of a direct solver for the two-dimensional (2D) case, and for the three-dimensional (3D) case for the Cp-1 global continuity of the isogeometric solution.

Later we present a parallel version of the alternating directions isogeometric L2 projections algorithm (ADS) for solving non-stationary time dependent problems. The algorithm is described in pseudo-code. The theoretical estimations on the computational and communication complexities for a single time step of the parallel algorithm are presented. We analyze the integration for isogeometric finite element method solvers.

In particular, we show that isogeometric solvers with higher order B-splines spend significant amount of time for generation of the element frontal matrices when executed sequentially on CPU. The integration algorithm is represented as a sequence of basic undividable computational tasks and the dependency relation between them is identified. The basic tasks are defined for particular steps of the integration algorithm, for given integration points. We show how to prepare independent sets of tasks that can be automatically scheduled and executed concurrently in a GPU card. This is done with the help of the graph expressing the dependency between tasks, constructed for the integration algorithm.

The theoretical estimates for multi-frontal solver are verified with numerical experiments performed with three parallel multi-frontal direct solvers: MUMPS, PaStiX and SuperLU, available through PETIGA toolkit built on top of PETSc. The theoretical estimates for ADS are compared with numerical experiments performed on the LONESTAR Linux cluster from Texas Advanced Computing Center, using 1728 processors. We also present the application of the method for numerical solution of the challenging problem of nonlinear flows in highly-heterogeneous porous media. The integration algorithm is implemented on GPU and tested on a sequence of numerical examples. The execution time of the concurrent GPU integration is compared with the sequential integration executed on CPU. All resuls have been compared with the theoretical estimates.

Streszczenie:
W niniejszej pracy zaprezentowano teoretyczne oszacowanie kosztu obliczeniowego dokładnego solwera wielofrontalnego dla izogeometrycznej metody elementów skończonych uruchamianego na maszynach równoległych z pamięcią rozproszoną. Teoretyczne szacowanie zarówno kosztu obliczeniowego jak i kosztu komunikacji solwera dokładnego zostało wykonane dla przypadków 2D oraz 3D, z zachowaniem globalnej ciągłości Cp-1 dla rozwiązania izogeometrycznego.

Następnie zaprezentowano wersję równoległą algorytmu zmienno-kierunkowego solwera izogeometrycznego L2 projekcji (ADS) do rozwiązywania problemów niestacjonarnych zmiennych w czasie. Algorytm ten został opisany za pomocą pseudokodu. Zaprezentowane są również teoretyczne szacowania kosztu obliczeniowego oraz komunikacji pojedynczego kroku czasowego dla algorytmu równoległego. Przedstawiona jest analiza całkowania dla izogeometrycznej metody elementów skończonych.

W szczególności pokazano, że dla solwerów izogeometrycznych, dla B-spline-ów wyższych rzędów, znaczącym kosztem przy wykonywaniu sekwencyjnym na CPU jest generacja macierzy frontalnych. Algorytm całkowania zaprezentowany został za pomocą sekwencji podstawowych niepodzielnych zadań oraz relacji zależności pomiędzy nimi. Te podstawowe zadania zdefiniowane są dla poszczególnych kroków całkowania dla zadanych punktów całkowania. Zaprezentowany został sposób przygotowywania zestawów niezależnych zadań, które mogą być wykonywane niezależnie na karcie graficznej. Do tego celu został użyty graf pokazujący zależności pomiędzy poszczególnymi zadaniami algorytmu całkowania.

Teoretyczne szacowania dla solwera wielofrontalnego zostały zweryfikowane poprzez wykonanie szeregu eksperymentów z wykorzystaniem trzech równoległych solwerów wielofrontalnych: MUMPS, PaStiX oraz SuperLU, dostępnych w pakiecie obliczeniowym PETIGA, rozszerzającym PETSc. Teoretyczne szacowania dla algorytmu ADS zostały porównane z wynikami eksperymentów wykonanych dla linuxowym klastrze LONESTAR z Texas Advanced Computing Center przy wykorzystaniu 1728 procesorów. Zaprezentowano również zastosowanie algorytmu ADS do rozwiązania wymagającego problemu przepływu nieliniowego w wysoce niejednorodnych ośrodkach porowatych. Algorytm całkowania został zaimplementowany na kartę graficzną oraz przetestowany na szeregu danych numerycznych. Czas obliczeń algorytmu całkowania równoległego na karcie graficznej został porównany z czasem obliczeń algorytmu całkowania sekwencyjnego na CPU. Wszystkie wyniki zostały również porównane z oszacowaniami teoretycznymi.


Recenzje

Ważniejsze publikacje doktoranta

  1. M. Woźniak, K. Kuźnik, M. Paszyński, V. Calo, D. Pardo. Computational cost estimates for parallel shared memory isogeometric multi-frontal solvers. Computers and Mathematics with Applications, 67(10):1864–1883, 2014. ISSN 0898-1221. doi: 10.1016/j.camwa.2014.03.017.
  2. M. Woźniak, M. Paszyński, D. Pardo, L. Dalcin, V. Calo . Computational cost of isogeometric multi-frontal solvers on parallel distributed memory machines. Computer Methods in Applied Mechanics and Engineering, 284:971–987, 2015. ISSN 0045-7825. doi: 10.1016/j.cma.2014.11.020.
  3. M. Woźniak . Fast GPU integration algorithm for isogeometric finite element method solvers using task dependency graphs. Journal of Computational Science, 11:145–152, 2015. ISSN 1877-7503. doi: 10.1016/j.jocs.2015.02.007
  4. M. Łoś, M. Woźniak, M. Paszyński, A. Lenharth, M. Hassaan, K. Pingali . IGA-ADS: isogeometric analysis FEM using ADS solver. Computer Physics Communications , 217:99–116, 2017. ISSN 0010-4655. doi: 10.17632/pbpsyzyvfy.1
  5. I. Martinez-Fernandez, M. Woźniak, L. Garcia-Castillo, M. Paszyński.Mesh-based multi-frontal solver with reuse of partial LU factorizations for antenna array. Journal of Computational Science, 18:132–142, 2017. ISSN 1877-7503. doi: 10.1016/j.jocs.2016.10.008
  6. M. Woźniak, M. Łoś, M. Paszyński, L. Dalcin, V. Calo. Parallel fast isogeometric solvers for explicit dynamics. Computing and Informatics , 36(2):423–448, 2017. ISSN 1335-9150.
  7. A. Paszyńska, M. Paszyński, K. Jopek, M. Woźniak, D. Goik, P. Gurgul, [et al.]. Quasi-optimal elimination trees for 2D grids with singularities. Scientific Programming, 2015(2015), 2015. ISSN 1058-9244. doi: 10.1155/2015/303024

2017/macwozni/start.txt · ostatnio zmienione: 2017/10/11 14:17 przez Maciej Woźniak