SMART-Werte bei Festplatten richtig interpretieren

Experten (und auch ich selbst) empfehlen, die S.M.A.R.T.-Daten von Festplatten und SSD-Laufwerke im Auge zu behalten, um frühzeitig zu erkennen, wenn sich Defekte ankündigen. Leider ist es gar nicht so einfach, diese Werte zu interpretieren, so dass mich immer wieder besorgte Leseranfragen dazu erreichen. Deshalb möchte ich das S.M.A.R.T.-System hier mal etwas ausführlicher erklären.

S.M.A.R.T. steht für „Self-Monitoring, Analysis, and Reporting Technology“ und bezieht sich auf die Fähigkeit eines Laufwerks, laufend Daten über seinen Betrieb zu erfassen und diese über eine festgelegte Schnittstelle zur Verfügung zu stellen. Programme der Hersteller oder auch allgemeine Programme zur Leistungsüberwachung wie CrystalDiskInfo können diese Daten auslesen und für den Anwender visualisieren. Trotzdem handelt es sich dabei letztlich „nur“ um eine Sammlung spröder Paramater, bei denen die Hersteller teilweise auch noch ihr eigenes Süppchen kochen. Deshalb kann es eine Herausforderung sein, diese Daten korrekt zu interpretiere und zu erkennen, welche Angaben ganz normal und welche besorgniserregend sind. CrystalDiskInfo macht dabei an sich eine ganz gute Figur, denn es markiert die einzelnen Werte farbig: blau oder grün – alles gut, gelb – Vorsicht! Zusätzlich wird daraus auch eine Gesamtnote gebildet. Ist hier alles im grünen bzw. blauen Bereich, braucht man sich keine Sorgen zu machen.

Aber verständlicherweise wollen es viele genauer wissen und schauen auf einzelne Werte, die besorgniserregend hoch erscheinen können. In den meisten Fällen kann man trotzdem gelassen bleiben. Gehen wir also mal ein wenig in die Details.

SMART-Parameter: Pre-fail vs. Old_age

Bei den zahlreiche SMART-Parametern gibt es zwei verschiedene Arten von Attributen: Pre-fail und Old-age, welche die Aussagekraft der Werte beschreiben. Die meisten Eigenschaften sind vom Typ Old_age und beziehen sich auf Werte, die sich im Laufe des Lebens einer Festplatte eben allmählich erhöhen. Das können die Betriebsstunden sein, die Einschaltvorgänge oder aber auch, wenn die Festplatte gelegentlich etwas länger zum Anlaufen braucht. Man kann das mit dem Kilometerzähler beim Auto vergleichen: Wenn der die 100.000 erreicht, ist es eben kein Neuwagen mehr, aber wird erfahrungsgemäß auch nicht am nächsten Tage auseinanderfallen. Aber vielleicht wird er allmählich anfälliger für Pannen.

Einige wenige Werte sind vom Typ Pre-fail, etwa wenn Lesefehler auftreten, wenn Sektoren unbrauchbar geworden sind oder wenn der Festplattenantrieb wiederholt gestartet werden muss, bevor er auf Touren kommt. Um beim Auto-Beispiel zu bleiben, wären das Warnlampen, die Cockpit angehen, etwa weil der Ölstand zu niedrig ist oder die Motorsteuersoftware Fehler registriert hat. Beim Auto sollte man baldigst eine Werkstatt aufsuchen. Eine Festplatte muss man in diesem Fall nicht immer umgehend ersetzen. Aber man sollte sie bei steigenden Pre-fail-Werten engmaschiger überwachen und ggf. die Backup-Frequenz erhöhen.

Aktuell – Schlechtester – Grenzwert – Rohwerte

Zu jedem SMART-Parameter werden vier verschiedene Werte angegeben, auf die ich ausführlicher eingehen möchte, damit man die etwas kryptischen Zahlenkolonnen besser verstehen kann:

ID Cur Wor Thr Raw Values (7) Attribute Name
01 __0 __0 _50 00000000000000 Lesefehlerrate (roh)
05 _98 _98 __3 000000000001C0 Schadhafte Blöcke
09 100 100 __0 0C094000001F42 Betriebsstunden
0C _97 _97 __0 00000000000E39 Geräte-Einschaltvorgänge
AB __0 __0 __0 00000000000000 Programmfehler
AC __0 __0 __0 00000000000000 Löschfehler
AE __0 __0 __0 00000000000038 Unerwartete Spannungsabfälle
B5 __0 __0 __0 00000000000000 Programmfehler
B6 __0 __0 __0 00000000000000 Löschfehler
BB 100 100 __0 00000000000000 Gemeldete nicht korrigierbare Fehler
C2 128 __0 __0 00000000000080 Temperatur
C3 __0 __0 __0 00000000000000 ECC On-the-fly-Anzahl
C4 100 100 __3 00000000000000 Wiederzuweisungsereignisse
E7 _97 _97 _10 00000000000001 Verbleibende SSD-Lebensdauer
E9 __0 __0 __0 00000000000C40 Herstellerspezifisch
EA __0 __0 __0 00000000000F40 Herstellerspezifisch
F1 __0 __0 __0 00000000000F40 Lebensdauer-Schreibvorgänge vom Host
F2 __0 __0 __0 00000000001940 Lebensdauer-Lesevorgänge vom Host
  • CURRENT VALUE bzw. Aktueller Wert
    Gibt den aktuellen Wert dieses Parameters an, wobei sich aktuell auf den zuletzt gespeicherten Wert bezieht. Das muss nicht in diesem Moment sein, sondern kann schon etwas zurückliegen. Vor allem aber handelt es sich um einen normalisierten Wert, dessen Betrag man nicht wörtlich nehmen darf. Eine Lesefehlerrate von 100 beispielweise bedeutet nicht, dass bislang 100 Lesefehler auftraten. Sondern es bedeutet, dass die Eigenschaft Lesefehlerrate zuletzt bei 100 lag. Man kann sich auch das vereinfacht als Prozent der gewünschten Leistung vorstellen. Leserfehlerrate 100 hieße also: In der Eigenschaft Lesefehlerrate liegt das Laufwerk bei 100%, also genau da, wo man es haben möchte. Denn bei den meisten Werte bedeutet höher = besser. Es gibt auch Werte die höher als 100 liegen, beispielsweise 252. Hier ist die Skala einfach etwas weiter und erlaubt feinere Abstufungen.
  • WORST bzw. Schlechtester Wert
    Zu jeder Eigenschaft speichert SMART auch den schlechtesten jemals gemessenen Wert. In vielen Fällen (beispielsweise den ganzen Old_age-Parametern) wird der aktuelle Wert mit dem schlechtesten Wert identisch sein, weil ein Laufwerk ja nun mal nur älter und nicht wieder jünger wird. Aber gerade bei den Pre-fail-Eigenschaften kann es sein, dass diese in der Vergangenheit schlechter waren und sich seitdem erholt haben. Etwa wenn einige Sektoren neu zugewiesen werden mussten, was aber auf einen kleinen Bereich des Laufwerks begrenzt war und mittlerweile abgeschlossen ist. Dann hat man zwar ein paar Sektoren verloren, muss sich ansonsten aber aktuell keine Gedanken machen.
  • TRESH bzw. Grenzwert
    Zu jedem Wert ist eine Grenze angegeben, welche dieser Wert möglichst nicht erreichen sollte. In vielen Fällen steht dieser Wert auf 0, dann dient diese Eigenschaft nur der Information und nicht der Zustandsbewertung. Wenn sich der aktuelle oder schlechteste Wert dieser 0 annähernd sollte, bedeutet es, dass dieses Laufwerk schon einen erheblichen Teil seiner Lebenspannen absolviert hat. Sehr hohe Grenzwerte wie etwa 253 besagen in ähnlicher Weise, dass es sich lediglich um einen Testwert ohne Relevanz für den Zustand des Laufwerks handelt. Alle anderen Grenzwerte geben an, dass man sich konkrete Gedanken machen muss, wenn sich der aktuelle bzw. schlechteste Wert dem Grenzwert annähert oder ihn unterschreitet. Insbesondere wenn mehrere verschiedene Parameter sich ihrem Grenzwert nähern, ist große Vorsicht angesagt.
  • RAW_VALUE bzw. Rohwerte
    Bei den bisherigen drei Werten handelt es sich jeweils um normalisierte Werte, die zum Zwecke der besseren Vergleichbarkeit aus den eigentlichen übermittelten Daten gebildet werden. Der Rohwert hingegen gibt genau diese übermittelte Information wieder. Diese Daten können für eine statistische Erfassung interessant sein, um zu erfassen, wie sich bestimmte Rohwerte im Laufe der Zeit entwickeln. Ansonsten sollte man ihre Aussagekraft nicht überbewerten, da sie zum einen herstellerspezifisch sind und zum anderen nur für Experten eine echte Aussagekraft haben. Ein Rohwert von 15 Lesefehlern etwa besagt nichts, wenn man nicht weiß, wie häufig Lesefehler im regulären Betrieb einer Festplatte üblicherweise auftreten.


Ein Retter für alle Notfälle:

Der Windows 10 PannenhelferDer Windows 10 Pannenhelfer

  • Hard- und Software reparieren
  • Window reanimieren und wiederherstellen
  • Probleme analysieren und beheben
  • für den Ernstfall optimal vorbereiten
  • die besten Tools für Troubleshooting


 

Die Angaben richtig interpretieren

Die wichtigste Regel für das Interpretieren habe ich schon kurz erwähnt: Mit wenigen Ausnahmen bedeuten höhere Werte bessere Werte. Bei einer fabrikneuen Festplatte beginnen die normalisierten Werte typischerweise bei 100, 200 oder 252 und sinken im Laufe der Lebensdauer allmählich ab. Die Grenzwerte liegen deutlich darunter und lassen einen großen Puffer. Und ganz wichtig: Es handelt sich um abstrakte Werte. Wenn beim Parameter Temperatur beispielsweise 74 als aktueller Wert angegeben ist, bedeutet das nicht, dass die Festplatte im Moment 74° warm ist (was schon nicht wenig wäre). Sondern es bedeutet, dass die Temperatur in einem Wertebereich von beispielsweise 100 (= kalt) bis 0 (= wir brauchen sofort einen Feuerlöscher!) bei 74 liegt, also in einem völlig unbedenklichen Bereich.

Zum Verdeutlichen ein konkretes Beispiel:

0x002f 253 253 063 Pre-fail Always - 0 Read_Error_Rate
  • Parametername: Lesefehlerrate bzw. Read_Error_Rate
  • Aktueller Wert: 253
  • Schlechteste Wert: 253
  • Grenzwert: 63
  • Rohwert: 0

Das könnten die Werte einer fabrikneuen Festplatte sein. Bislang ist noch kein Lesefehler verzeichnet. Es gibt keinerlei Grund zu Beunruhigung. Im Vergleich dazu:

0x002f 103 089 063 Pre-fail Always - 1234567 Read_Error_Rate
  • Parametername: Lesefehlerrate bzw. Read_Error_Rate
  • Aktueller Wert: 103
  • Schlechteste Wert: 89
  • Grenzwert: 63
  • Rohwert: 1234567

Ein paar Jahre später könnte es so aussehen: Die Festplatte hat mittlerweile eine ganze Menge an Lesefehlern erlebt. Im Moment aber hat sich der Wert wieder etwas stabilisiert. Die Festplatte arbeitet aus Sicht des Anwenders weiterhin zuverlässig, aber man sollte nun beginnen, Vorsichtsmaßnahmen zu ergreifen. Wenn die Platte wichtige Daten enthält, sollte man regelmäßig Backups davon auf einem anderen Medium anfertigen. Außerdem sollte man überlegen, die Festplatte durch ein neues Modell zu ersetzen. Die alte Festplatte kann auch mit diesen Daten durchaus noch dienlich sein, beispielsweise in einem externen Gehäuse als USB-Festplatte zum Datentransport. Für Sicherungszwecke sollte sie aber nicht mehr verwendet werden.

Und noch ein weiteres Beispiel aus dem echten Leben:

1 0x002f 100 100 051 Pre-fail Always - 15 Raw_Read_Error_Rate 
2 0x0026 056 056 000 Old_age Always - 11418 Throughput_Performance 
3 0x0023 089 089 025 Pre-fail Always - 3451 Spin_Up_Time 
4 0x0032 096 096 000 Old_age Always - 4838 Start_Stop_Count
5 0x0033 252 252 010 Pre-fail Always - 0 Reallocated_Sector_Ct 
7 0x002e 252 252 051 Old_age Always - 0 Seek_Error_Rate 
8 0x0024 252 252 015 Old_age Offline - 0 Seek_Time_Performance

Hier kann man sehr schön erkennen, dass das Laufwerk an sich in Ordnung ist. Es gab bislang keine nennenswerten Lesefehler, es wurden keine Sektoren neu zugewiesen, das Suchen nach Datenblöcken läuft schnell und fehlerfrei. ABER: Es wurden schon häufiger eine verlängerte Anlaufzeit (Spin_Up-Time) registriert. Es handelt sich also um eine Magnetfestplatte, deren Antrieb erste Ermüdungserscheinungen zeigt. Das wirkt sich auch negativ auf den Datendurchsatz (Throughput_Performance) aus. Eine Festplatte mit solchen S.M.A.R.T.-Werten muss nicht unbedingt ersetzt werden, da sie voraussichtlich noch eine ganze Weile zuverlässig ihren Dienst versehen wird. Aber der Ersatz durch ein neues Laufwerk könnte die Leistung des PCs insgesamt verbessern, so dass es unter diesem Gesichtspunkt durchaus überlegenswert wäre.

Schreiben Sie einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Schließen