Z vami bi rada delila svoje izkušnje ob obisku SC23, Mednarodne konference za visoko zmogljivo računalništvo, omrežje, shranjevanje in analizo, ki je potekala teden dni (od 11. do 17. novembra 2023) v Denverju, ZDA.
SC23 je bila odlična priložnost za spoznavanje najnovejših dosežkov in trendov na področju visoko zmogljivega računalništva (angl. high performance computing ali HPC). Udeležila sem se različnih predavanj in delavnic, kjer sem se naučila več o aktualnih trendih in izzivih na področju HPC, kot so: arhitekture in omrežja za gradnjo in povezovanje zmogljivih računalnikov; analiza podatkov, vizualizacija in shranjevanje za obdelavo ter predstavitev velikih količin informacij; strojno učenje in HPC za uporabo umetne inteligence v znanstvenih in industrijskih domenah; uspešnost za merjenje in optimizacijo zmogljivosti HPC sistemov in aplikacij; sistemsko programsko opremo za upravljanje in nadzor HPC infrastrukture; in stanje prakse pri velikih razmestitvah in integraciji HPC rešitev.
Na delavnici HPC Systems Professionals Workshop (HPCSYSPROS23) je imelo 10 predavateljev predstavitve na različne teme. Sergi Girona iz Barcelona Supercomputing Center (BSC) je predstavil superračunalnik MareNostrum5 v njegovi pravi velikosti, Adam Focht iz Pennsylvania State University in Institute for Computational and Data Sciences je pojasnil, kako so uporabnikom začeli zagotavljati dostop do njihovega HPC pomnilnika z orodjem, ki omogoča znani vmesnik in vedenje – kot sta OneDrive ali Dropbox – in poenotili dostop do skupin pomnilnikov po celotni univerzi.
V drugem delu delavnice sta nam Jason Kincl in Patrick Bruszewski iz Red Hat Inc v svojem govoru predstavila, kako lahko izkoristimo tradicionalno HPC particioniranje delovne obremenitve kot tudi funkcije Kubernetesa, da dosežemo hibridni sistem, ki ga je mogoče uporabiti za vse vrste delovnih obremenitev. Pokazala sta, kako izoliramo orkestracijo in uporabniške procese v Kubernetesu, kar omogoča maksimalno uporabo strojne opreme za izvajanje paketnih delovnih obremenitev s primerjalnimi primerjavami s tradicionalno gručo HPC. Na koncu sta omenila, da je to področje raziskav še vedno v zgodnjih fazah in z njihovim raziskovanjem te teme upata, da bo to še naprej spodbujalo razprave v skupnosti HPC. Andres Quan iz Los Alamos National Laboratory (LANL) je predstavil, kako so s pomočjo jezikovnih modelov rešili težavo razvrščanja napak sistemske strojne opreme pri heterogenih gručah. Zadnjo besedo na delavnici je imel specialist za diskovna polja Honwai Leong iz University of Sydney ter DataDirect Networks (DDN), ki je predstavil rešitev za obnovitev po katastrofi (angl. disaster recovery oz. DR) za zaščito podatkov pred katastrofalno okvaro v katerem koli od pomnilniških sistemov.
Na drugi delavnici na temo 2nd International Workshop on Cyber Security in High Performance Computing (S-HPC 2023) je pet strokovnjakov predstavilo različne poglede na varnost HPC sistemov. Posebej me je navdušila predstavitev Ryana Adamsona iz Oak Ridge National Laboratory (ORNL) po imenu ‘The ‘S’ is HPC Stands for Security’. V svoji predstavitvi je začel z dejstvom, da so sistemi HPC zasnovani tako, da izpolnjujejo cilje najvišje zmogljivosti in razširljivosti, vendar so današnja varnostna navodila in orodja zasnovana za informacijsko zaščito podjetij. To pomeni, da je zelo težko zagotoviti vire HPC, ne da bi to vplivalo na cilje zmogljivosti. V tem predavanju so preučili ključne varnostne razlike med sistemi podjetja in skupne značilnosti okolij HPC. Razpravljali smo tudi o novi publikaciji HPC Security NIST (trenutno v osnutku) in se dotaknili, kako varne morajo biti res raziskave “odprte znanosti”. Nazadnje je prikazal primer zero-day vulnerability, najdene na prejšnjem sistemu #1 top 500 (razkritem in popravljenem leta 2018), z namenom spodbujanja širšega ukrepanja, da bi v HPC postavili črko »S«.
Zaključno besedo na delavnici je imela skupina iz U.S. Army Research Lab DoD Supercomputing Resource Center in Department of Defense High Performance Computing, ki je razložila, kako pomembno je uvajanje RFM v HPC. Okvir za obvladovanje tveganja (angl. risk management framework oz. RMF) nudi postopek, ki integrira varnost, zasebnost in aktivnosti obvladovanja tveganja kibernetske dobavne verige v življenjskem ciklu razvoja sistema.
Naslednji dan sem se udeležila zanimive in poučne delavnice, ki jo je organizirala organizacija Women in HPC. Delavnica je bila namenjena spodbujanju večje raznolikosti in vključenosti žensk na področju visoko zmogljivega računalništva (HPC). Na delavnici smo se seznanili z različnimi vidiki raznolikosti, pravičnosti in vključenosti, ki vplivajo na delo in karierno rast v HPC. Prav tako smo spoznali nekaj praktičnih strategij za izboljšanje svojega položaja in uspeha v tej panogi, ki je še vedno pretežno moška. Poleg tega smo imeli priložnost spoznati in se povezati z drugimi ženskami, ki delajo ali se izobražujejo na področju HPC, ter izmenjati svoje izkušnje, izzive in nasvete. Delavnica je bila zelo koristna in navdihujoča, ki mi je dala veliko novih idej in motivacije za nadaljnje delo v HPC.
Dan se je končal s slavnostno otvoritvijo razstave. Bila sem navdušena nad številom in kakovostjo razstavljavcev, ki so predstavljali svoje izdelke in rešitve za najzahtevnejše računske probleme. Med njimi so bili velikani kot Google, Intel, DELL, Nvidia, IBM, DDN, SuperMicro, SUSE, ASUS, Oracle, Microsoft, HP in mnogi drugi. Poleg tega so bili prisotni tudi različni znanstveni in raziskovalni inštituti, HPC centri in univerze, ki so delili svoje izkušnje in dosežke na področju HPC.
Razstava je bila prava paša za oči. Videla sem najnovejše modele superračunalnikov, strežnikov, grafičnih kartic, pomnilnikov in drugih komponent, ki omogočajo izvajanje najbolj kompleksnih simulacij, analiz in umetne inteligence. Prav tako sem spoznala nekaj zanimivih storitev in programskih rešitev, ki olajšujejo upravljanje, optimizacijo in varnost HPC sistemov.
Imela sem nekaj pomembnih sestankov z našimi partnerji in dobavitelji, EuroHPC, Atos in DDN, saj je naš cilj okrepiti sodelovanje in izboljšati storitve. Tukaj je kratek povzetek IZUM-ovih dosežkov:
-
- Z EuroHPC smo se uskladili glede priprave Demo Lab za študente, ki bo potekal v okviru EuroHPC summita. Demo Lab bo omogočil študentom seznanjanje z najnovejšimi tehnologijami in rešitvami na področju visokozmogljivega računalništva.
- Z Atosom smo začeli pogovor o spremembi konfiguracije na stikalih, povezanih na CEPH diskovno polje. To bi nam omogočilo boljšo optimizacijo in zanesljivost shranjevanja podatkov.
- Z DDN smo se pogovarjali o podrobnostih delavnice, ki jo pripravljajo za nas. Delavnica bo namenjena predstavitvi njihovega produkta EXAScaler, ki je namenjen upravljanju velikih količin podatkov.
Na konferenci sem imela tudi priložnost slišati navdihujoče govornike, ki so delili svoje vizije in izkušnje z uporabo HPC za reševanje globalnih izzivov, kot so: podnebne spremembe, zdravstvo, energija, vesoljske raziskave, umetnost in kultura. Poleg tega sem navezala stike z mnogimi strokovnjaki, raziskovalci, izobraževalci, študenti in partnerji iz HPC skupnosti, ki so prihajali iz različnih delov sveta. Z njimi sem izmenjala ideje in kontakte.
SC23 je bila zame res nepozabna izkušnja. Naučila sem se veliko novih stvari na področju HPC in spoznala veliko zanimivih ljudi. Priporočam vsem, ki se zanimajo za HPC, da se udeležijo naslednje konference SC24, ki bo potekala v Atlanti, ZDA, novembra 2024. Upam, da se vidimo tam!
Prispevek pripravila: Violeta Šikaleska