Het Duinspook – uit de serie Onregelmatige Sterke Verhalen

Een blog in de categorie "mooi sterk verhaal" van onze consultant Rolf Zwart

In een gemeente ergens op zandgrond in Nederland, waar OSP af en toe komt om ondersteuning te leveren op backup-, Unix- en clustergebied, is de Aptomox-productieomgeving net ge-upgrade naar de nieuwste Oracle Database. Omdat ook de backup daarvan weer moet gaan werken, word ik opgetrommeld. Een gerenommeerd backuppakket met RMAN, een ijzersterke combinatie, met voor de hand liggende connect strings en usernamen. Over de passwords mag ik niks zeggen.

De backup deed het de eerste week en de week erna. Maar op dag 15 faalde opeens de archive log backup. Om 8 uur deed hij het nog, om 10 uur niet meer.  Ik belde eerst met de beheerder om er een vinger achter te krijgen en daarna ging een collega nog verder met het zoeken naar fouten. Inmiddels kreunde onze mailserver onder het levendige mailverkeer dat binnen osp.nl ontstond. In de configuratie van het backuppakket bleek niks veranderd. Iedereen beloofde plechtig dat niemand ergens aan had gezeten. Daardoor op het verkeerde been gezet, gingen we het tevergeefs in andere richtingen zoeken. Geruchten over een Duinspook deden we uiteraard af als bijgeloof.

Twee collega’s besluiten het probleem te onderzoeken en stappen in de auto. Na de nodige hoofdbrekens en wat probeersels bleef de conclusie dat het password van RMAN ongeldig moest zijn. En inderdaad bleek het terugzetten van het RMAN password de remedie. Alles weer goed dus, totdat… twee weken later hetzelfde gebeurde. Gelukkig was de workaround nu ook bij de beheerders bekend: het password laten resetten (door de softwareleverancier!). Toen ik een week later weer ter plaatse was voor een paar klusjes, was de betreffende backup weer mislukt. De oorzaak bleef in het vage. Een destijds nieuwe feature in de Oracle Database waardoor passwords automatisch verlopen was nog een optie. Maar waarom dan steeds na andere periodes? Het bleef een mysterie. Of waren die huiveringwekkende verhalen over het Duinspook dan toch waar?

Ondertussen had een gemeenteambtenaar ook af en toe last van een mysterieus verschijnsel: na de upgrade kon hij niet meer inloggen in Aptomox. Na een week of twee het account van een collega gebruikt te hebben, had hij de helpdesk gevraagd zijn account weer goed te zetten. Daarna kon hij een paar dagen werken, maar opeens was het weer afgelopen. Helpdesk bellen, alles OK, maar nu ging het na een halve dag alweer mis. Het verhaal kwam beheerders via de wandelgangen ter ore en ze begonnen dingen te combineren… De conventie voor gebruikersnamen is: <voorletter><achternaam-zonder-voorvoegsels>; de medewerker heette Roderick de Man; de tijdstippen kwamen overeen. Je raadt het al, de naamconventie is niet veranderd, maar er is een uitzondering gemaakt voor deze medewerker: hij mag zijn voorvoegsel houden. De beslissing had security-implicaties: meneer De Man had sysdba rechten, zonder dat hij het wist!

De moraal van dit verhaal: voorkom dit soort problemen structureel, door strikte naamconventies te hanteren voor functionele gebruikers en 'mortal users' die niet kunnen overlappen. Leg wachtwoordbeheer niet neer bij een externe partij. Spoor samenhangende verschijnselen op door logfiles en incidenten in de tijd te visualiseren. Doe DevOps: slecht om te beginnen de muren tussen helpdesk, 2e en 3e lijnsbeheer en ontwikkelaars. En praat ook meer met elkaar bij de koffieautomaat!