Sonntag, 25. Februar 2007, 20:16 Uhr

Google über Festplattenausfälle

Drive Temperature

Google räumt auf mit der Auffassung, dass vor allem Hitze Festplatten ein kurzes Leben beschert:

[…] In the lower and middle temperature ranges, higher temperatures are not associated with higher failure rates. This is a fairly surprising result, which could indicate that datacenter or server designers have more freedom than previously thought when setting operatin temperatures for equipment that contains disk drives. We can conclude that at moderate temperature ranges it is likely that there are other effects which affect failure rates much more strongly than temperatures do.

Als kritischen Grenzwert betrachtet man bei Google 40° C – wird eine Platte mehr als 50% der überwachten Zeit über diesem Schwellenwert gefahren, droht

Alarmierender sind folgende beiden Diagnose-Parameter einer Festplatte:

Scan Errors

[…] We find that the group of drives with scan errors are ten times more likely to fail than the group with no errors.

Reallocation Counts

[…] Drives with one or more reallocations do fail more often than those with none. The average impact on AFR [Average Failure Rate] appears to be between a factor of 3-6x.

[…] After their first reallocation, drives are over 14 times more likely to fail within 60 days than drives without reallocation counts, making the critical threshold for this parameter also one.

Dennoch: Regelmässige Backups braucht es weiterhin!

Wer nun nur noch auf SMART-Signale achtet, um einen drohenden Festplatten-Ausfall vorherzusagen, könnte auf den Kopf fallen:

[…] Out of all failed drives, over 56% of them have no count in any of the four strong SMART signals, namely scan errors, reallocation count, offline reallocations, and probabtional count. In other words, models based only on those signals can never predict more than half of the failed drives.

Quelle: Failure Trends in a Large Disk Drive Population

Via: heute (!)

smartmontools

Wer die oben genannten Werte auslesen will, bedient sich den smartmontools. Dieses OSS-Utility erlauben es, die S.M.A.R.T.-Werte einer Festplatte auszulesen:

smartctl -a /dev/hda

Um die Parameter von über libata angesprochenen SATA-Festplatten auszulesen, muss der Befehl ein wenig abgeändert werden:

smartcl -d ata -a /dev/sda

Labels: IT

Kommentar erfassen