Niks meer missen?
Schrijf je in voor onze nieuwsbrief!
Foto: Guillaume Paumier (cc, via Wikimedia Commons)
actueel

‘Er zijn engineers en apparatuur van over de halve wereld ingevlogen’

Henk Strikkers,
28 februari 2017 - 09:37

Drie grote storingen in een week; het moet een nachtmerrie zijn geweest voor Bert Voorbraak, de directeur van ICT Services van HvA en UvA, en zijn team. Hij vertelt wat er misging en hoe het werd opgelost. ‘Om zondagochtend 9 uur kwamen een van de meest ervaren engineers van Dell en vervangende onderdelen aan in Amsterdam.’

Wat is er nu precies fout gegaan?

‘Kijk, we maken gebruik van een Storage Platform van Dell dat op dit moment zo’n vierenhalf jaar oud is. Dat heeft al die tijd goed gewerkt. Er zijn nauwelijks storingen geweest. Een maand of vier geleden kregen we de eerste signalen dat er fouten in het systeem zaten, maar in een actief systeem is het moeilijk om naar problemen te zoeken en ze op te lossen. Daarvoor moet je het systeem offline halen en analyseren.’

 

Daarvoor had u toch een onderhoudsweekend in november ingepland?

‘Dat klopt. In dat weekend zouden we in ieder geval de firmwareFirmware is software die in hardware geprogrammeerd is. updaten en analyseren hoe het systeem er verder voor stond. We wisten dat er een update van de firmware nodig was, maar helaas is dat weekend niet doorgegaan.’

 

Hoe komt dat?

‘Wij plannen dat soort weekenden altijd negen maanden vooruit en stemmen dat af met alle faculteiten. Zij zorgen ervoor dat er geen problemen ontstaan met onderwijs en onderzoek. In de week voor 19 en 20 november kwamen er echter signalen bij de Centrale Studentenraad van de UvA binnen dat er bij een faculteit midterms gepland waren en Blackboard eigenlijk niet gemist kon worden. De raadsleden hebben gebeld met de rector en die heeft uiteindelijk besloten om het weekend af te gelasten.’

‘Dinsdagochtend was het systeem weer operationeel, maar de problemen waren niet opgelost’

En toen ging het vorige week maandag mis. Wat gebeurde er precies?

‘Maandag 20 februari rond zes uur in de avond is het platform gecrasht. We hebben de hele nacht gewerkt om de veertig systemen die van het platform afhankelijk zijn weer online te krijgen en dat lukte: dinsdagochtend was het systeem weer operationeel. De problemen waren echter niet opgelost.’

 

Dat is geweten. Twee dagen later ging het weer mis. Was dat hetzelfde probleem?

‘Dat kan ik niet met zekerheid zeggen, maar naar mijn inschatting hadden de problemen die woensdagavond laat ontstonden wel een verband met die van maandag. Rond elf uur op donderdagochtend hadden we het systeem uiteindelijk weer operationeel, maar we hebben toen met het UvA-HvA-crisisteam besloten om de rest van de dag het systeem niet beschikbaar te maken. We hebben met man en macht gezocht naar fouten in het systeem en een aantal fouten gevonden en opgelost.’

‘Zaterdagnacht is vanuit allerlei internationale opslagplaatsen apparatuur opgestuurd’

Dat was niet voldoende. Zaterdag gebeurde het weer.

‘Toen kwam inderdaad de derde klapper. Op zaterdag rond half drie crashte het weer en kregen we het systeem op geen enkele manier meer aan de praat. We zijn de hele dag bezig geweest en hebben er ook Dell-ingenieurs bijgehaald, maar delen van de hardware waren gewoon kapot, fysiek stuk. Om elf uur ’s avonds hebben we gebeld met mensen van Dell in de Verenigde Staten, Ierland en Zweden en in dat gesprek werd bevestigd dat het nodig was om hardware te gaan vervangen. Daarvoor is nog diezelfde nacht apparatuur vanuit allerlei internationale opslagplaatsen opgestuurd. Die kwamen, net zoals een van de meest ervaren engineers van Dell, om zondagochtend om 9 uur aan in Amsterdam. De ingenieurs zijn drie uur bezig geweest om de kapotte hardware eruit te halen en de nieuwe te plaatsen en om zondag was het om zes uur weer up and running.’

 

De vraag der vragen is natuurlijk of het nu echt is opgelost en of we de komende tijd geen storingen meer hoeven te verwachten.

‘Het control center van Dell in Dublin heeft met de hele installatie meegekeken en heeft tot op heden geen fouten meer kunnen vinden. Tegelijkertijd weten we dat de geplande firmware-update niet uitgevoerd is.’

 

Hoe lang kan een systeem dat vierenhalf jaar oud is nog mee?

‘We waren al van plan om het platform in de loop van 2017 of 2018 te vervangen en dat gaan we nu vervroegen. Het nieuwe systeem hadden we eigenlijk al geselecteerd. Het lijkt toeval, maar precies vorige week hadden we gepland om een proof of concept, een soort prototype, op dit nieuwe systeem uit te voeren. Dat doen we nu zo snel mogelijk. Als we er een klap op geven duurt het zeker nog enkele weken voordat dat nieuwe systeem daadwerkelijk operationeel is. Dat kan waarschijnlijk zonder dat we het voo­r langere tijd uit de lucht moeten halen, dus dat is winst.’