Indholdsfortegnelse:
Da supercomputere bliver mere magtfulde, bliver de også mere udsatte for fejl, takket være den øgede mængde indbygget komponent. Nogle forskere ved den seneste SC12-konference i sidste uge i Salt Lake City, Utah, tilbød mulige løsninger på dette voksende problem.
Dagens højtydende computergasystemer (HPC) kan have 100.000 noder eller mere - med hver knude bygget fra flere komponenter i hukommelse, processorer, busser og andre kredsløb. Statistisk set vil alle disse komponenter mislykkes på et tidspunkt, og de stopper operationerne, når de gør det, siger David Fiala, en ph.d.-studerende ved North Carolina State University, under en samtale på SC12.
Problemet er ikke en ny, selvfølgelig. Da Lawrence Livermore National Laboratory's 600-node ASCI (Accelerated Strategic Computing Initiative) White supercomputer gik online i 2001, havde det en gennemsnitlig tid mellem fejl (MTBF) på kun fem timer, takket være dels komponentfejl. Senere tuning indsats havde forbedret ASCI White's MTBF til 55 timer, siger Fiala.
Men da antallet af supercomputer noder vokser, så vil problemet også. "Der skal gøres noget ved dette. Det vil blive værre, når vi flytter til exascale," siger Fiala og henviser til, hvordan supercomputere i det næste årti forventes at have ti gange den beregningsevne, som dagens modeller gør.
Dagens teknikker for at beskæftige sig med systemfejl, må det ikke skelne meget godt, sagde Fiala. Han citerede checkpoint, hvor et løbende program stoppes midlertidigt, og dets tilstand er gemt på disk. Hvis programmet kolliderer, kan systemet genstarte jobbet fra det sidste kontrolpunkt.
NCSUDavid Fiala Problemet med checkpointing er ifølge Fiala, at når antallet af noder vokser, er mængden af systemets overhead der er behov for at gøre checkpointing vokser også - og vokser med en eksponentiel sats. På en supercomputer på 100.000 noder vil f.eks. Kun ca. 35 procent af aktiviteten være involveret i at udføre arbejde. Resten vil blive taget op med checkpointing og skal Fiala estimeres.
På grund af al den ekstra hardware, der er nødvendig for exascale-systemer, som kan bygges fra en million eller flere komponenter, vil systemets pålidelighed have at blive forbedret med 100 gange for at holde den samme MTBF, som dagens supercomputere nyder, siger Fiala.
Gamle gode råd: sikkerhedskopiere data
Fiala præsenterede teknologi, som han og andre forskere udviklede, der kan medvirke til at forbedre pålideligheden. Teknologien løser problemet med tavs korruption af data, når systemer gør uopdagede fejl ved at skrive data til disk.
Forskernes tilgang består grundlæggende i at køre flere kopier eller "kloner" af et program samtidigt og derefter sammenligne svarene. Softwaren kaldes RedMPI, køres sammen med Message Passing Interface (MPI), et bibliotek til opdeling af kørende applikationer på tværs af flere servere, så de forskellige dele af programmet kan udføres parallelt.
RedMPI aflyser og kopierer hver MPI besked, som et program sender, og sender kopier af meddelelsen til klonen (eller klonerne) af programmet. Hvis forskellige kloner beregner forskellige svar, kan tallene genberegnes i flyve, hvilket sparer tid og ressourcer fra at køre hele programmet igen.
"Implementering af redundans er ikke dyrt. Det kan være højt i antallet af kernetællinger der er nødvendige, men det undgår behovet for omskrivninger med checkpoint genstarter, "siger Fiala. "Alternativet er selvfølgelig blot at genoprette job, indtil du tror, du har det rigtige svar."
Fiala anbefalede at køre to sikkerhedskopier af hvert program til tredobbelt redundans. Selvom der kører flere kopier af et program, ville det i starten tage flere ressourcer i brug, og det kan over tid faktisk være mere effektivt, fordi programmerne ikke behøver at blive genvundet for at kontrollere svarene. Desuden er det muligvis ikke nødvendigt med checkpointing, når flere kopier køres, hvilket også vil spare på systemressourcer.
UCSCEthan Miller"Jeg tror, at ideen om at gøre redundans faktisk er en god ide." [For] meget store beregninger, der involverer hundredtusindvis af noder, er der helt sikkert en chance for at fejl falder ind, "sagde Ethan Miller, en computer science professor ved University of California Santa Cruz, der deltog i præsentationen. Men han sagde, at tilgangen måske ikke er passende i betragtning af mængden af netværkstrafik, som en sådan redundans kan skabe. Han foreslog at køre alle applikationer på samme sæt af noder, hvilket kunne minimere internode trafik.
I en anden præsentation fremlagde Ana Gainaru, en ph.d.-studerende fra University of Illinois i Urbana-Champaign, en analyse af log filer til forudsigelse af systemfejl.
Arbejdet kombinerer signalanalyse med data mining. Signalanalyse bruges til at karakterisere normal adfærd, så når en fejl opstår, kan den let ses. Data mining søger korrelationer mellem separate rapporterede fejl. Andre forskere har vist, at flere fejl er undertiden korreleret med hinanden, fordi en fejl med en teknologi kan påvirke ydeevnen i andre, ifølge Gainaru. Når et netværkskort fejler, vil det for eksempel snart genopbygge andre systemprocesser, der er afhængige af netværkskommunikation.
Forskerne fandt, at 70 procent af korrelerede fejl giver et vindue med mulighed for mere end 10 sekunder. Med andre ord, når det første tegn på en fejl er blevet detekteret, kan systemet have op til 10 sekunder for at gemme sit arbejde eller flytte arbejdet til et andet knude, før der opstår et mere kritisk svigt. "Fejlforudsigelse kan slås sammen med andre fejltolerance teknikker," siger Gainaru.
Joab Jackson dækker firmware og generel teknologi breaking news for IDG News Service. Følg Joab på Twitter på @Joab_Jackson. Joabs e-mail-adresse er [email protected]
Nvidia siger, at den nye Fermi-CPU vil køre supercomputere
Nvidia viste et grafikkort baseret på sin nye Fermi-arkitektur, hvilket vil fremskynde ydeevnen af dens fremtidige GPU'er.
Dell arbejder på prototyper fra ARM-supercomputere
Ikke overrasket af et overtagelsesslag, der er truende på sidelinjen, og medlemmerne af Dells forskningsafdeling samler stykkerne til prototype ARM-supercomputere som kunne blive implementeret i fremtiden.
Stationære eller personlige supercomputere - Implementering og Fremtid
Stationære eller personlige supercomputere er usædvanligt hurtige. Post tager et kig på Optalysys, Tesla, hardware scenariet, fremtiden, løfter og hvordan de virker.