Abstrakt und 1. Einleitung
Motivation und Designziele
Verwandte Arbeiten
Konforme Vorhersage
4.1. Mondrian konforme Vorhersage (MCP)
4.2. Bewertungsmetriken
Mondrian konforme Vorhersage für Festplatten-Scrubbing: unser Ansatz
5.1. System- und Speicherstatistiken
5.2. Welche Festplatte zu scrubben: Laufwerksgesundheits-Prädiktor
5.3. Wann zu scrubben: Workload-Prädiktor
Experimentelle Einstellung und 6.1. Open-Source Baidu-Datensatz
6.2. Experimentelle Ergebnisse
Diskussion
7.1. Optimaler Planungsaspekt
7.2. Leistungsmetriken und 7.3. Energieeinsparung durch selektives Scrubbing
Fazit und Referenzen
In Rechenzentren bleibt eine erhebliche Anzahl ungesunder Laufwerke aufgrund latenter Fehlerattribute unentdeckt, was zu Fail-Stop-Szenarien führt. Ein gängiger Ansatz zur Minderung solcher Szenarien ist das Festplatten-Scrubbing, das aus der Überprüfung von Festplattendaten durch einen Hintergrund-Scanprozess besteht, um fehlerhafte Sektoren zu identifizieren. Dieser Prozess kann jedoch Energie verbrauchen und je nach Auslösezeitplan zu Leistungseinbußen führen. Dieses Szenario weckt Bedenken in der Branche, insbesondere bei zunehmenden Festplattenkapazitäten. Wir bemerken eine fehlende Verbindung bei der Beantwortung der Fragen "welche Festplatte zu scrubben", "wann zu scrubben", basierend auf der Häufigkeit des Scrub-Zyklus, während gleichzeitig die Auswirkungen auf die Leistung des Speicherarrays minimiert und die Zuverlässigkeit maximiert werden sollen. In diesem Artikel betrachten wir die folgenden Ziele und Designansätze, um diese Herausforderung zu bewältigen:
\ • Welche Festplatte zu scrubben? Abhängig vom spezifischen Scrubbing-Prozess kann dieser die Leistung des Laufwerks vorübergehend beeinträchtigen. Um sicherzustellen, dass das Laufwerk schnell und reaktionsschnell bleibt, ist die Minimierung der Scrubbing-Häufigkeit entscheidend. Anstatt Scrubbing für alle Festplatten im Speicherarray durchzuführen, konzentriert sich unser Ansatz auf das selektive Scrubben nur der Festplatten, die es benötigen, wodurch die Gesamtzeit für den Abschluss des Prozesses reduziert wird.
\ • Wann zu scrubben? Wir können den Scrubbing-Zeitplan für Festplattenlaufwerke optimieren, indem wir Faktoren wie die Arbeitslast des Systems, die Wichtigkeit der Daten auf dem Laufwerk und die Verfügbarkeit von Ressourcen berücksichtigen. Dieser Ansatz stellt sicher, dass Scrubbing zu den geeignetsten Zeiten durchgeführt wird, wodurch die Auswirkungen auf die Gesamtsystemleistung minimiert werden.
\
Die Zuverlässigkeit von Speichergeräten ist seit langem ein kritisches Anliegen in der Branche, und bestehende Lösungen stützen sich oft auf die Fehleranalyse von Speichersystemen. Traditionelle Methoden wie beschleunigte Lebensdauertests (Cho et al., 2015) haben sich jedoch nicht als zuverlässige Indikatoren für tatsächliche Ausfallraten in Produktionsumgebungen erwiesen. Neuere maschinelle Lernansätze, wie multivariate Zeitreihen (Yu, 2019) und Zeitreihenklassifikation (Ircio et al., 2022), haben sich auf die Verbesserung der Modellgenauigkeit konzentriert, mangeln jedoch oft an tiefer Integration von Domänenwissen. Darüber hinaus konzentriert sich der multimodale Ansatz von (Lu et al., 2020), der Leistungsmetriken (auf Festplatten- und Serverebene) und die räumliche Lage der Festplatte verwendet, nur auf Fail-Stop-Szenarien, was bei der Erkennung latenter Fehler möglicherweise nicht hilfreich ist. Eine neuere Studie (Lu et al., 2023) hat dieses Problem durch die Untersuchung grauer Fehler (langsam ausfallende Laufwerke) mit einem Regressionsmodell angegangen, um langsame Ausfälle auf der Granularitätsebene einzelner Laufwerke zu identifizieren und zu analysieren.
\ Ein weiterer wichtiger Faktor des Festplatten-Scrubbings sind die Implementierungskosten und der Stromverbrauch. (Mi et al., 2008) und (Jiang et al., 2019) befassen sich mit Leistungseinbußen durch Scrubbing und schlagen vor, dem Hintergrundprozess während der Leerlaufzeit eine niedrigere Priorität zuzuweisen, d.h. wenn das Festplattenlaufwerk nicht aktiv mit der Verarbeitung von Daten oder der Ausführung anderer Aufgaben beschäftigt ist. (Liu et al., 2010) und (Oprea und Juels, 2010) schlagen eine Methode vor, um den Stromverbrauch zu reduzieren und zu bestimmen, wann in Systemen mit kostengünstigen Daten gescrubt werden soll, erfordern jedoch die Entwicklung einer weiteren Methode zur Identifizierung weniger kritischer Daten. Das Laufwerksplatzmanagement im Falle des Austauschs der ausgefallenen Festplatte wird in (Pˆaris et al., 2010) diskutiert, zusammen mit der Reduzierung der Notwendigkeit für häufiges Scrubbing. Ein mehrstufiges Scrubbing wird in (Zhang et al., 2020) unter Verwendung eines Long Short-Term Memory (LSTM)-Modells vorgeschlagen, um latente Sektorfehler in einem binären Klassifikationsaufbau zu erkennen. Die Verwendung von maschinellen Lernmodellen kann jedoch dazu führen, dass gesunde und relativ weniger gesunde Festplatten gleich behandelt werden, was zu unnötigem Scrubbing gesunder Festplatten führt.
\ Nach unserem besten Wissen ist unsere Arbeit die erste, die Mondrian konforme Vorhersage zur Zuweisung eines Gesundheitswerts für jedes einzelne Festplattenlaufwerk einsetzt und die Metriken verwendet, um einen Scrubbing-Zyklus zu entwerfen, der mit der Leerlaufzeit des Systems abgestimmt ist.
\
:::info Dieser Artikel ist auf arxiv unter der CC BY-NC-ND 4.0 Deed (Attribution-Noncommercial-Noderivs 4.0 International) Lizenz verfügbar.
:::
:::info Autoren:
(1) Rahul Vishwakarma, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, United States ([email protected]);
(2) Jinha Hwang, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, United States ([email protected]);
(3) Soundouss Messoudi, HEUDIASYC - UMR CNRS 7253, Universit´e de Technologie de Compiegne, 57 avenue de Landshut, 60203 Compiegne Cedex - France ([email protected]);
(4) Ava Hedayatipour, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, United States ([email protected]).
:::
\


