CPK berichten worden initieel ook gemaild naar de CPK mailing lijst, je kunt je abonneren (of afmelden) via deze link. Je kunt ook een RSS reader gebruiken om op de hoogte te blijven van de storingen, zie de link met het RSS icoon in de titel van deze pagina. Bij langdurige storingen wordt de CPK op deze website bijgewerkt.

 

Storingen


1365: herstellen van oude ceph shares

Hoewel we CPK #1359 afgesloten hebben, zijn nog niet alle shares beschikbaar voor gebruik op een permanente locatie. We hebben de data uit cephfs naar tijdelijke hardware gekopieerd, we zijn nog even bezig om de data naar de eindsituatie te brengen De nieuwe locatie zal geen cluster storage meer zijn, maar enkelvoudige ZFS servers met snapshots

Opgeloste Meldingen


1337: Cephfs offline

Na het stroomloos maken van het Huygens gebouw, is er een probleem ontstaan met het online brengen van het Ceph file systeem. We hebben nu nog geen zicht op wanneer het Ceph cluster het weer doet. Update 2023-08-01 10:30 Ceph werkt weer. Deze CPK is afgesloten. CPK#1338 is ook gesloten. Update 2023-07-31 12:30 Na nog meer ondersteuning van 42on hebben we nu weer een werkende cephfs. Helaas kunnen we niet met zekerheid zeggen of alle files er zijn, maar vrijwel alle files zijn er....

Bijgewerkt aug. 1, 2023  ·  Miek Gieben · Gecreëerd jul. 22, 2023

1336: VPN service downtime

De VPNsec service wordt naar een nieuwe server verhuisd. Deze verhuizing zal gepaard gaan met ‘downtime’ en bestaande VPN connecties zullen verbroken worden. Verwachting is dat de verstoring enkele minuten gaat duren.

Bijgewerkt jul. 6, 2023  ·  Wim Janssen · Gecreëerd jul. 4, 2023

1335: Mailman verstoring

Vrijdagmiddag is een wijziging in de mailman configuratie doorgevoerd die als bijwerking had dat mails niet meer naar externe adressen werden verstuurd. De betreffende mailman posts zijn wel bij Science gebruikers aangekomen. De wijziging is momenteel teruggedraaid maar noodzakelijk zodat we naar een nieuwe oplossing zoeken.

Bijgewerkt sep. 28, 2023  ·  Miek Gieben · Gecreëerd jul. 3, 2023

1334: router wijziging voor Science servers (dr-huyg)

De verbindingsrouter (dr-huyg) voor alle servers in de subnetten 131.174.30.0/24, 131.174.31.0/24 en 131.174.16.128/26 wordt vervangen. De verwachting is dat dit zorgt voor een onderbreking van ca. 10 minuten, maar onverwachte omstandigheden kunnen voor een langere onderbreking zorgen. Dit gebeurt nu, omdat de geplande stroomonderbreking van 22 juli te veel risico oplevert voor de hardware van de oude router.

1333: Science ICT-diensten down op 21 en 22 juli - Huygensgebouw stroomloos

Vrijdag 21 juli vanaf 17:00 gaan we rekenclusternodes uitzetten, ter voorbereiding op het stroomloos worden van het Huygensgebouw op zaterdag 22 juli. Andere servers worden later afgesloten. De belangrijkste servers (mail, home, file, Ceph, gitlab, loginservers) worden vanaf zaterdagochtend 7:00 uur uitgezet. Tijdens deze stroomstoring proberen we de basisdiensten (DNS/DHCP, SMTP(mail) en licentieservers) werkend te houden. RU-services worden niet verzorgd vanuit het Huygensgebouw, dus die zullen niet worden beïnvloed. Vanaf woensdag 19 juli 8:00 uur tot zaterdagmiddag is er geen noodstroomvoorziening....

1332: Certificate van authenticatie-server verlopen

Door het verlopen van een LDAP certificaat is het tijdelijk niet mogelijk om in te loggen op diverse diensten. Er wordt met spoed een nieuw certificaat geïnstalleerd. Getroffen diensten zijn onder meer WiFi (met behulp van Science-logins), Science VPN, GitLab, Mattermost.

1331: Downtime Felixdisk and bioboost

Door een falende power distribution unit (pdu) zijn de servers felixdisk en bioboost uitgevallen. De servers zijn aangesloten op een andere pdu en weer opgestart.

1330: storing bij omzetting default route

De geplande route-omzetting, die slechts voor enkele seconden onderbreking had mogen zorgen, werkte niet zoals bedoeld en heeft tot wel een kwartier aan onbereikbaarheid gezorgd van sommige diensten. Update 2023-06-12 - 22:00 De situatie is toch minder goed dan we dachten, verschillende diensten hebben problemen; DNS resolving, jupyterhub en een enkele fileserver. We zijn er mee bezig om het probleem op te lossen. Update 2023-06-13 - 11:30 Na correctie (vaste IP-adressen) werkt alles weer....

1329: DDOS op mailservers van Science

Onze mailservers worden aangevallen van buitenaf. Om andere problemen te voorkomen hebben we een maximum aantal open verbindingen ingesteld en het is lastig connecties van de aanvaller(s) te onderscheiden van de andere gebruikers. Nieuwe verbindingen opzetten lukt niet als het maximum bereikt is. Het versturen van mail via onze mailservers kan daardoor lang duren of helemaal niet lukken. Verder is er een grote kans dat je versturende IP-adres tijdelijk (max. 1 uur) geblokkeerd wordt door andere beschermingsmaatregelen, bijvoorbeeld als je vanaf 8 juni een domeinnaam (@…) achter je Science loginnaam hebt staan....

1328: Storing koeling in datacenter Huygensgebouw

De computerruimte in Huygens werd te warm, omdat het koelwater te warm was en niet automatisch overgeschakeld werd op de noodkoeling met leidingwater. Om verdere schade te voorkomen zijn om te beginnen alle clusternodes en fileservers uitgezet. Door de urgentie van de problemen op zaal zijn ook systemen die niet in Huygens op zaal staan uitgezet, dit was helaas niet makkelijk te voorkomen zonder te veel tijd te verliezen. Rond 7:50 zijn de koelsystemen weer aangegaan en ongeveer een half uur later was de temperatuur weer onder de 25 graden....