Samenvatting
Begin 2024-01-19 09:22:00
Eind 2024-04-15 11:00:00
Getroffen CephFS storage, ftp, RDR

Ceph filesystem storing.

De services voor het ceph filesystem weigeren op te starten. Ontbreken van die services maakt toegang tot files op Ceph onmogelijk.

We hebben contact met onze supportpartij 42on. Duur van de storing is onbekend

Update 2024-01-22

We zijn bezig met 42on om het probleem op te lossen, er is vandaag overleg om 17:00.

Update 2024-01-23

Een eerste dentry_recover is succesvol verlopen en volgens 42on zijn de Ceph journals nog goed. We hopen binnen een aantal dagen Ceph weer up en running te hebben.

Update 2024-01-24

Er is voortgang na de meeting gisteren, maar CephFS is nog niet gezond. Vandaag is er weer overleg met 42on.

Er moet nog een keer een dentry_recover gerund worden - dit duurt vrij lang, 4+ uur. Daarna is er nog een meeting nodig met 42on om de vervolgstappen te bepalen. Deze nieuwe meeting staat voor morgen 15:00 op de planning.

Update 2024-01-25

CephFS is weer online.

We moeten nog wat onderhoudsprocessen uitvoeren. Dit zal tijdens het weekend worden gedaan.

Update 2024-02-05

CephFS is weer niet ok, eerst was het traag, een poging om dit te verbeteren maakte het erger.

Mogelijk is CephFS een deel van deze week weer niet beschikbaar om het probleem weer op te lossen.

Update 2024-02-06

Een deel van het ceph filesystem is nog wel toegankelijk, namelijk de shares in het 3copy, ec54, en in mindere mate in ec83. Helaas lijkt de grootste gebruiker; onder ec83/rimlsfnwi; helemaal onbruikbaar te zijn op dit moment. We werken aan een oplossing met ons gebruikelijke externe ondersteuner, en ondertussen werken we aan alternatieve tijdelijke oplossingen voor zoveel mogelijk gebruikers. We verwachten dat CephFS in z’n geheel waarschijnlijk weer voor langere tijd offline moet gaan om herstel uit te voeren.

Update 2024-02-15

We zijn zoveel mogelijk data uit CephFS naar andere volumes aan het kopieren. We verwachten dat we (begin?) volgende week CephFS uitzetten om de recovery te beginnen.

Update 2024-02-19

Het lijkt erop dat het probleem erger is geworden, alles op CephFS is nu onbereikbaar geworden. We zijn begonnen met het repareren van CephFS.

Update 2024-02-20

Het reparatieproces loopt… Eerder werd in deze CPK niet vermeld welke diensten hieronder lijden, dat is nu toegevoegd in de metadata; cpk_affected: CephFS storage, ftp, install, RDR

Update 2024-02-22

De install share wordt hersteld op een andere locatie, de herstelwerkzaamheden lopen.

Update 2024-02-26

De herstelwerkzaamheden gaan door, volgende stap(pen) kunnen erg lang duren (weken?).

Update 2024-02-28

We zijn aan het kijken of we de data op een andere manier van CephFS kunnen halen. Morgen verwachten we daarover terugkoppeling van 42on.

Update 2024-03-05

De scans lopen nog, we verwachten dat deze stap nog 2 weken duurt, daarna volgt nog een stap die waarschijnlijk ook 3 weken duurt en dan nog twee stappen die sneller klaar zouden moeten zijn. Het lijkt redelijk om te verwachten dat CephFS binnen twee maanden weer bereikbaar zal zijn (met nogal grote onzekerheid).

Er is nog een alternatieve strategie, door de check stappen gedeeltelijk over te slaan, met grote onbekende risico’s (schade aan de metadata?). We zijn huiverig om dit pad op te gaan.

Update 2024-03-07

De scan_extents stap was eerder klaar dan gedacht, we hebben de volgende stap gestart (scan_inodes)

Update 2024-03-08

De scan_inodes stap is al klaar, dus hebben we de volgende stap gestart; scan_links. Deze stap duurt waarschijnlijk lang, want dit kan niet parallel.

Update 2024-03-15

De scan_links is gestopped op een problematische situatie met een object zonder parent, we moesten daarna even wachten op advies van onze support partij. Het ziet er momenteel niet goed uit, herstel van de data zal nog langer moeten wachten.

Update 2024-03-19

Positief nieuws; we zijn nu bezig met het kopiëren van data uit CephFS. We konden het filesystem weer mounten met hulp van 42on, onze support club. We kopiëren nu de data en dat lijkt goed te gaan. Op elk moment kunnen we tegen problematische metadata aanlopen, dus afwachten en duimen. Als we de data uit CephFS hebben gekopieerd op tijdelijke storage, kunnen we verdere oplossingen voor de toekomst verzinnen en implementeren.

NB: neem contact op met postmaster als je een urgent verzoek hebt voor een kleine set van files in een specifieke locatie, dan kunnen we daar prioriteit aan geven. Een Petabyte aan data kopiëren duurt weken/maanden, kleine datasets (< 1TB) kan wel relatief snel.

Update 2024-03-22

Het kopieren loopt nog. Ter verduidelijking van de huidige situatie, we willen alle data uit CephFS halen, daarna CephFS resetten. Wat we daarna gaan doen is nog onderwerp van discussie.

Update 2024-03-26

We hebben al ruim 50% van de data uit cephfs gekopieerd naar tijdelijke servers. We verwachten binnenkort meer data servers te ontvangen voor definitieve opslag van de data. Tot nu toe hebben we geluk gehad dat we niet tegen problemen aangelopen zijn.