Samenvatting
Begin 2022-10-23 23:06:45
Eind 2022-10-23 23:45:00
Getroffen cephstorage pages.science.ru.nl ftp.science.ru.nl astro

Iets voor 23:09 werden een flink aantal ceph storage nodes onbereikbaar door een kortdurende fout op een van de links tussen twee van onze datacenters. Dit veroorzaakte blijkbaar dat grote aantallen osd disk services gekilled werden en niet meer opgestart. Een generieke configuratie-aanpassing die op bijna al onze hardware servers was uitgerold bleek voor een extra netwerk interface gezorgd te hebben. Dit verwarde de osd processen bij het opstarten. We zijn er redelijk zeker van dat we deze fout in de toekomst kunnen voorkomen.

Ceph blokkeert het schrijven en zelfs lezen als niet genoeg disken beschikbaar zijn. De data blijft ondertussen wel veilig.

Een aantal van onze websites staan op ceph storage, zoals de gitlab pages en ftp.science.ru.nl. Doordat de storage “hing” ging de load op de webserver ook omhoog, waardoor mogelijk andere sites ook last hebben gehad.