Un RAID guasto richiede attenzione immediata
Come suggerisce il nome, il RAID ha una ridondanza integrata per proteggere i dati da eventuali guasti dell'unità. Tuttavia, affinché tale protezione rimanga efficace, è fondamentale sostituire tutti i dischi guaste nell'array il più rapidamente possibile.
Rischio di perdita di dati sul RAID
C'è un ottimo motivo per sostituire rapidamente un disco non funzionante: un secondo guasto metterebbe a rischio i tuoi dati. Sebbene tutti i livelli RAID possano resistere a un guasto di una singola unità, in generale non possono gestire una seconda unità guasta.
Si pensa che i guasti alle unità siano completamente indipendenti uno dall'altro, ma non è del tutto vero:
- Spesso le unità nell'array sono identiche e fanno parte dello stesso lotto di produzione; qualsiasi difetto in uno è probabilmente presente in tutte le unità dell'array.
- Tutti i dischi dell'array vengono utilizzati contemporaneamente, l'usura sarà quindi simile e la possibilità che un secondo disco si guasti in tempi brevi non è remota.
Calo di prestazioni
Nei livelli RAID che utilizzano la parità, come RAID-5 e RAID-3, le prestazioni calano fortemente in seguito al guasto di un disco: per continuare a funzionare, l'array ricostruisce i dati sull'unità guasta da dati di parità memorizzati altrove, ciò richiede tempo e comporta prestazioni significativamente più lente nelle scritture.
Limitare i rischi
Per ridurre la vulnerabilità, molti produttori offrono array con hot spare, un disco aggiuntivo di riserva. Quando un'unità si guasta, l'array inizia automaticamente a ricostruirsi utilizzando l'unità di riserva già installata.
Indipendentemente dal fatto che gli array utilizzino o meno hot spare, è buona norma tenere a portata di mano unità di riserva con le caratteristiche appropriate (capacità, velocità di rotazione, ecc.) in modo da poter sostituire rapidamente qualsiasi unità guasta. Se i dati memorizzati sull'array sono critici, ma non abbastanza per giustificare hot spare, l'array dovrebbe consentire l'hot-swap delle unità - un cambio disco senza dover chiudere l'array.
Poiché le hot spare non vengono generalmente utilizzate fino a quando un'unità non si guasta, è una buona idea testarle regolarmente per assicurarsi che siano completamente funzionali. La maggior parte dei fornitori include una funzione di test sul controller e la si dovrebbe usare regolarmente.
Tieni presente che il cambio del disco è solo una parte del processo di recupero. L'array deve ancora ricostruirsi reinserendo i dati dal disco guasto nella nuovo disco. Con gli array con mirroring (RAID-1) questo è un processo rapido. I livelli RAID basati su parità richiedono più tempo, a volte molto più tempo, per il ripristino. Il tempo dipende dalla dimensione dell'unità, dalla quantità di dati da ripristinare, dalle caratteristiche dell'array e del controller e dal fatto che il sistema abbia conservato o meno un registro di blocchi o file modificati. Non è raro che il processo di restauro richieda ore e, in casi estremi, giorni.