VASP benchmark av Espen Flage-Larsen
Oversender herved benchmark tall for VASP, kjoert paa samtlige aktuelle arkitekturer i NOTUR. Dette er en std. jobb. Som dere ser av tallene og visualiseringen er det noen avvik fra det man skulle forvente. Likevel er det greit aa se trendene. Bruker totalt antall cores:cores/noder notasjon.
Foerst litt om kompileringen; generelt presterer VASP best dersom vi bruker GotoBLAS2+FFTW. Vi trenger ogsaa scaLAPACK for stoerre hoeynoeyaktigshetsjobber (VASP kjoerer bedre for normale jobber uten scaLAPACK, men dette deaktiveres i en VASP input fil). Stallo og Titan er kompilert helt likt, begge med GotoBLAS2+FFTW3.2.2 og scaLAPACK/BLACS. Paa Titan kjoerer vi med OpenMPI 1.4.2, mens 1.3.3 ble brukt paa Stallo. Begge med Intel kompilatorer. Dessverre viste det seg umulig aa faa GotoBLAS2 eller libsci til aa kjoere med den nye VASP versjonen det er kjoert benchmark paa her. ACML ble derfor brukt og jeg regner med en 10-15% oekning (kanskje tilogmed mer) av ytelsen dersom det i fremtiden lar seg gjoere aa bruke libsci eller gotoblas2.
Prestandaen er likevel god.
Dersom vi ser paa en prosessor, 4:4 konfigurasjon, kjoerer VASP raskest i ordnet rekkefoelge:
-Titan X5550
-Titan Barcelona
-Hexagon
-Stallo
Som forventet fra hardwareforskjellene lokalt paa noden. Dersom den samme jobben spres over maksimalt antall noder, 4:1:
-Titan X5550
-Stallo
-Hexagon
-Titan Barcelona
Siden X5550 er en god del raskere troner den fortsatt, men man ser helt klart at Titan sliter litt med nodekommunikasjonen. Samme ser vi mellom Stallo og Titan for 8:8. der Titan er raskere, men for 8:1 er igjen
Stallo raskest, noe som holder seg naar nodeantallet oeker. Stallo tar igjen Titan et sted mellom 16:8 og 32:8 konfigurasjon. Hexagon er noe raskere en Titan ved spredning over flere noder. Potensielt burde Titan
kanskje vaere raskest av alle disse maskinene dersom kommunikasjonen hadde fungert bedre. Dessverre er vel dette er kjent problem. Dersom vi tar hoyede for fakturering er det Hexagon som presterer best for fulle noder inntil skaleringen for VASP avtar.
Igjen ser vi at VASP generelt skalerer daarlig og det er liten vits aa kjoere mer enn 32 prosessorer. Det er ogsaa en del interne parametere som kan tunes for optimal utnyttelse av VASP (utover denne benchmark), men disse fungerer stort sett universalt og er ikke dokumentert her. Har dog relativt god oversikt over dette ogsaa.
Haaper dette er nyttig for noen av dere. Det var nyttig for meg.
mvh.
Espen Flage-Larsen

