Car-tech

Heftiest-supertietokoneiden pudottaminen vaikeimmaksi, tutkija ehdottaa

Sisällysluettelo:

Anonim

Kun supertietokoneet kasvavat voimakkaammin, he myös kasvavat heikommassa asemassa epäonnistumiseen, mikä lisää sisäänrakennetun komponentin määrää. Jotkut tutkijat viime viikolla järjestetyssä SC12-konferenssissa Utahissa Salt Lake Cityssä tarjosivat mahdollisia ratkaisuja tähän kasvaviin ongelmiin.

Nykypäivän korkean suorituskyvyn tietojenkäsittelyjärjestelmissä (HPC) voi olla 100 000 solmua tai enemmän - jokainen solmu on rakennettu monista muistin komponentit, prosessorit, bussit ja muut piirit. Tilastollisesti kaikki nämä komponentit epäonnistuvat jossain vaiheessa, ja he pysäyttävät toimintansa, kun he tekevät niin, kertoi PhD-opiskelija Pohjois-Carolinan valtionyliopistossa SC12: n keskustelun aikana.

Ongelma ei ole uusi, tietysti. Kun Lawrence Livermore National Laboratoryn 600-solmun ASCI (Superseted Strategic Computing Initiative) valkoinen supertietokone tuli verkkoon vuonna 2001, sen keskimääräinen viiveen (MTBF) välillä oli vain viisi tuntia, mikä johtui osittain komponenttihäiriöistä. Myöhemmin viritys oli parantanut ASCI Whitein MTBF: tä 55 tuntia, Fiala sanoi.

Mutta kun supertietokoneiden solmujen määrä kasvaa, niin ongelma onkin. "Tähän on tehtävä jotain, se pahenee, kun siirrymme exascaleen", Fiala kertoi viitaten siihen, miten seuraavan vuosikymmenen supertietokoneiden odotetaan olevan kymmenen kertaa laskentateho, jota nykypäivän mallit tekevät.

Nykyiset tekniikat järjestelmän vikaantuminen ei ehkä skaalaudu kovin hyvin, Fiala sanoi. Hän mainitsi tarkistuspisteen, jossa käynnissä oleva ohjelma keskeytyy väliaikaisesti ja sen tila tallennetaan levylle.

NCSUDavid Fiala Fialan mukaan tarkistuspisteen ongelma on se, että kun solmujen määrä kasvaa, järjestelmän ylimääräinen määrä tarvitaan myös tarkistuspisteen kasvaessa - ja kasvaa eksponentiaalisella nopeudella. Esimerkiksi 100 000 solmun supertietokoneessa vain noin 35 prosenttia toiminnasta on mukana tekemässä työtä. Loput otetaan käyttöön tarkistuspisteen avulla ja - jos järjestelmävirheiden palautusoperaatiot, Fiala arvioitu.

Kaikkien muiden laitteiden, jotka voidaan rakentaa miljoonasta tai useammasta komponen- tista, tarvitsevat ylimääräiset laitteistot, järjestelmän luotettavuus on parannetaan 100 kertaa, jotta pysyisimme saman MTBF: n kanssa kuin nykyiset supertietokoneet, Fiala sanoi.

Vanhoja hyviä neuvoja: varmuuskopiointi

Fiala esitteli teknologiaa, jonka hän ja muut tutkijat kehittivät, mikä voi parantaa luotettavuutta. Tekniikka ratkaisee hiljaisen tietojen korruptiota, kun järjestelmät tekevät havaitsemattomista virheistä, jotka kirjoittavat tietoja levylle.

Periaatteessa tutkijoiden lähestymistapa koostuu useiden kopioiden tai "kloonien" suorittamisesta samanaikaisesti ja sitten vertaamalla vastauksia. RedMPI-ohjelmistoa kutsutaan nimellä Message Passing Interface (MPI), joka jakaa käynnissä olevia sovelluksia useille palvelimille, jotta ohjelman eri osat voidaan suorittaa rinnakkain.

RedMPI kuuntelee ja kopioi jokaisen MPI: n että sovellus lähettää ja lähettää viestin kopion ohjelman kloonille (tai klooneille). Jos eri kloonit laskevat eri vastauksia, numeroita voidaan laskea uudelleen lentokoneessa, mikä säästää aikaa ja resursseja koko ohjelman uudelleen suorittamisesta.

"Rengassanojen suorittaminen ei ole kallista, vaan se voi olla suuri ydinlaskumäärän joita tarvitaan, mutta vältetään tarve uudelleenkirjoittamiseen tarkistuspisteen uudelleenkäynnistämisellä ", Fiala sanoi. "Vaihtoehtona on luonnollisesti yksinkertaisesti aloittaa työt uudelleen, kunnes luulet olevasi oikea vastaus."

Fiala suositteli, että kaksi ohjelmaa sisältävä varmuuskopio, kolminkertainen irtisanominen. Vaikka useita kopioita ohjelmasta aloittaisi entistä enemmän resursseja, saattaa ajan myötä olla tehokkaampaa, koska ohjelmia ei tarvitse tarkistaa vastausten tarkistamiseksi. Myös tarkistuspisteitä ei välttämättä tarvita, kun useita kopioita suoritetaan, mikä myös säästää järjestelmän resursseja.

UCSCEthan Miller

"Uskon, että ajatus irtisanomisesta on todella hieno ajatus. [Suurten laskutoimitusten, joissa on satoja tuhansia solmuja, on varmasti olemassa mahdollisuus, että virheet leviävät", sanoo Ethan Miller. tietotekniikan professori Kalifornian yliopistossa Santa Cruz, joka osallistui esitykseen. Mutta hän sanoi, että lähestymistapa ei ehkä ole sopiva, kun otetaan huomioon verkkoliikenteen määrä, jonka tällainen irtisanominen saattaa aiheuttaa. Hän ehdotti, että kaikki sovellukset suoritettiin samassa solmukohdassa, mikä voisi minimoida sisäisen liikenteen.

Toisessa esittelyssä Anaa Gainaru, Illinois-yliopiston Urbana-Champaignin yliopiston Ph.D-opiskelija esitteli login analysointitekniikan tiedostoja, jotka ennustavat järjestelmän vikoja.

Teoksessa yhdistyvät signaalianalyysi datan louhintaan. Signaalianalyysia käytetään tavanomaisen käyttäytymisen karakterisointiin, joten kun vika ilmenee, se voidaan helposti havaita. Tiedonlouhinta etsii korrelaatioita erillisten raportoitujen vikojen välillä. Muut tutkijat ovat osoittaneet, että useat virheet korreloivat keskenään toisistaan, koska yhden tekniikan epäonnistuminen voi vaikuttaa muiden suorituskykyyn Gainarun mukaan. Esimerkiksi kun verkkokortti epäonnistuu, se heikentää pian muita verkkopalveluja käyttäviä järjestelmäprosesseja.

Tutkijat havaitsivat, että 70 prosenttia korreloiduista vioista antaa mahdollisuuden yli 10 sekunnin ajan. Toisin sanoen, kun virheen ensimmäinen merkki on havaittu, järjestelmässä voi olla jopa 10 sekuntia pelastaakseen työnsä tai siirtää työn toiseen solmuun, ennen kuin kriittisempi vika ilmenee. "Epäonnistumisen ennustaminen voidaan yhdistää muihin virheentorjuntatekniikoihin", Gainaru sanoi.

Joab Jackson kattaa yrityssovellukset ja yleiset teknologiauutiset uutiset IDG News Service. Seuraa Joab Twitterissä osoitteessa @Joab_Jackson. Joabin sähköpostiosoite on [email protected]