Herkömmliches Disk-Scrubbing verbessert die Datenintegrität, belastet jedoch die Leistung und den Energieverbrauch. Diese Arbeit stellt eine selektive, intelligente Scrubbing-Methode vor, die durch Mondrian-Konformalvorhersage unterstützt wird und einzelnen Laufwerken Gesundheitswerte zuweist, um zu bestimmen, welche Festplatten wann überprüft werden sollten. Durch die Abstimmung der Wartungszyklen mit Leerlaufzeiten und die Verwendung von Vorhersagemodellen zur Erkennung latenter oder "langsam ausfallender" Probleme verbessert dieser Ansatz die Zuverlässigkeit bei gleichzeitiger Minimierung der Ressourcenverschwendung – und bietet einen datengesteuerten Weg zu intelligenteren, umweltfreundlicheren Rechenzentren.Herkömmliches Disk-Scrubbing verbessert die Datenintegrität, belastet jedoch die Leistung und den Energieverbrauch. Diese Arbeit stellt eine selektive, intelligente Scrubbing-Methode vor, die durch Mondrian-Konformalvorhersage unterstützt wird und einzelnen Laufwerken Gesundheitswerte zuweist, um zu bestimmen, welche Festplatten wann überprüft werden sollten. Durch die Abstimmung der Wartungszyklen mit Leerlaufzeiten und die Verwendung von Vorhersagemodellen zur Erkennung latenter oder "langsam ausfallender" Probleme verbessert dieser Ansatz die Zuverlässigkeit bei gleichzeitiger Minimierung der Ressourcenverschwendung – und bietet einen datengesteuerten Weg zu intelligenteren, umweltfreundlicheren Rechenzentren.

Mondrian Konforme Vorhersage für Festplatten-Gesundheitsbewertung und Optimierung des Scrubbings

Abstrakt und 1. Einleitung

  1. Motivation und Designziele

  2. Verwandte Arbeiten

  3. Konforme Vorhersage

    4.1. Mondrian konforme Vorhersage (MCP)

    4.2. Bewertungsmetriken

  4. Mondrian konforme Vorhersage für Festplatten-Scrubbing: unser Ansatz

    5.1. System- und Speicherstatistiken

    5.2. Welche Festplatte zu scrubben: Laufwerksgesundheits-Prädiktor

    5.3. Wann zu scrubben: Workload-Prädiktor

  5. Experimentelle Einstellung und 6.1. Open-Source Baidu-Datensatz

    6.2. Experimentelle Ergebnisse

  6. Diskussion

    7.1. Optimaler Planungsaspekt

    7.2. Leistungsmetriken und 7.3. Energieeinsparung durch selektives Scrubbing

  7. Fazit und Referenzen

2. Motivation und Designziele

In Rechenzentren bleibt eine erhebliche Anzahl ungesunder Laufwerke aufgrund latenter Fehlerattribute unentdeckt, was zu Fail-Stop-Szenarien führt. Ein gängiger Ansatz zur Minderung solcher Szenarien ist das Festplatten-Scrubbing, das aus der Überprüfung von Festplattendaten durch einen Hintergrund-Scanprozess besteht, um fehlerhafte Sektoren zu identifizieren. Dieser Prozess kann jedoch Energie verbrauchen und je nach Auslösezeitplan zu Leistungseinbußen führen. Dieses Szenario weckt Bedenken in der Branche, insbesondere bei zunehmenden Festplattenkapazitäten. Wir bemerken eine fehlende Verbindung bei der Beantwortung der Fragen "welche Festplatte zu scrubben", "wann zu scrubben", basierend auf der Häufigkeit des Scrub-Zyklus, während gleichzeitig die Auswirkungen auf die Leistung des Speicherarrays minimiert und die Zuverlässigkeit maximiert werden sollen. In diesem Artikel betrachten wir die folgenden Ziele und Designansätze, um diese Herausforderung zu bewältigen:

\ • Welche Festplatte zu scrubben? Abhängig vom spezifischen Scrubbing-Prozess kann dieser die Leistung des Laufwerks vorübergehend beeinträchtigen. Um sicherzustellen, dass das Laufwerk schnell und reaktionsschnell bleibt, ist die Minimierung der Scrubbing-Häufigkeit entscheidend. Anstatt Scrubbing für alle Festplatten im Speicherarray durchzuführen, konzentriert sich unser Ansatz auf das selektive Scrubben nur der Festplatten, die es benötigen, wodurch die Gesamtzeit für den Abschluss des Prozesses reduziert wird.

\ • Wann zu scrubben? Wir können den Scrubbing-Zeitplan für Festplattenlaufwerke optimieren, indem wir Faktoren wie die Arbeitslast des Systems, die Wichtigkeit der Daten auf dem Laufwerk und die Verfügbarkeit von Ressourcen berücksichtigen. Dieser Ansatz stellt sicher, dass Scrubbing zu den geeignetsten Zeiten durchgeführt wird, wodurch die Auswirkungen auf die Gesamtsystemleistung minimiert werden.

\

3. Verwandte Arbeiten

Die Zuverlässigkeit von Speichergeräten ist seit langem ein kritisches Anliegen in der Branche, und bestehende Lösungen stützen sich oft auf die Fehleranalyse von Speichersystemen. Traditionelle Methoden wie beschleunigte Lebensdauertests (Cho et al., 2015) haben sich jedoch nicht als zuverlässige Indikatoren für tatsächliche Ausfallraten in Produktionsumgebungen erwiesen. Neuere maschinelle Lernansätze, wie multivariate Zeitreihen (Yu, 2019) und Zeitreihenklassifikation (Ircio et al., 2022), haben sich auf die Verbesserung der Modellgenauigkeit konzentriert, mangeln jedoch oft an tiefer Integration von Domänenwissen. Darüber hinaus konzentriert sich der multimodale Ansatz von (Lu et al., 2020), der Leistungsmetriken (auf Festplatten- und Serverebene) und die räumliche Lage der Festplatte verwendet, nur auf Fail-Stop-Szenarien, was bei der Erkennung latenter Fehler möglicherweise nicht hilfreich ist. Eine neuere Studie (Lu et al., 2023) hat dieses Problem durch die Untersuchung grauer Fehler (langsam ausfallende Laufwerke) mit einem Regressionsmodell angegangen, um langsame Ausfälle auf der Granularitätsebene einzelner Laufwerke zu identifizieren und zu analysieren.

\ Ein weiterer wichtiger Faktor des Festplatten-Scrubbings sind die Implementierungskosten und der Stromverbrauch. (Mi et al., 2008) und (Jiang et al., 2019) befassen sich mit Leistungseinbußen durch Scrubbing und schlagen vor, dem Hintergrundprozess während der Leerlaufzeit eine niedrigere Priorität zuzuweisen, d.h. wenn das Festplattenlaufwerk nicht aktiv mit der Verarbeitung von Daten oder der Ausführung anderer Aufgaben beschäftigt ist. (Liu et al., 2010) und (Oprea und Juels, 2010) schlagen eine Methode vor, um den Stromverbrauch zu reduzieren und zu bestimmen, wann in Systemen mit kostengünstigen Daten gescrubt werden soll, erfordern jedoch die Entwicklung einer weiteren Methode zur Identifizierung weniger kritischer Daten. Das Laufwerksplatzmanagement im Falle des Austauschs der ausgefallenen Festplatte wird in (Pˆaris et al., 2010) diskutiert, zusammen mit der Reduzierung der Notwendigkeit für häufiges Scrubbing. Ein mehrstufiges Scrubbing wird in (Zhang et al., 2020) unter Verwendung eines Long Short-Term Memory (LSTM)-Modells vorgeschlagen, um latente Sektorfehler in einem binären Klassifikationsaufbau zu erkennen. Die Verwendung von maschinellen Lernmodellen kann jedoch dazu führen, dass gesunde und relativ weniger gesunde Festplatten gleich behandelt werden, was zu unnötigem Scrubbing gesunder Festplatten führt.

\ Nach unserem besten Wissen ist unsere Arbeit die erste, die Mondrian konforme Vorhersage zur Zuweisung eines Gesundheitswerts für jedes einzelne Festplattenlaufwerk einsetzt und die Metriken verwendet, um einen Scrubbing-Zyklus zu entwerfen, der mit der Leerlaufzeit des Systems abgestimmt ist.

\

:::info Dieser Artikel ist auf arxiv unter der CC BY-NC-ND 4.0 Deed (Attribution-Noncommercial-Noderivs 4.0 International) Lizenz verfügbar.

:::


:::info Autoren:

(1) Rahul Vishwakarma, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, United States ([email protected]);

(2) Jinha Hwang, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, United States ([email protected]);

(3) Soundouss Messoudi, HEUDIASYC - UMR CNRS 7253, Universit´e de Technologie de Compiegne, 57 avenue de Landshut, 60203 Compiegne Cedex - France ([email protected]);

(4) Ava Hedayatipour, California State University Long Beach, 1250 Bellflower Blvd, Long Beach, CA 90840, United States ([email protected]).

:::

\

Haftungsausschluss: Die auf dieser Website veröffentlichten Artikel stammen von öffentlichen Plattformen und dienen ausschließlich zu Informationszwecken. Sie spiegeln nicht unbedingt die Ansichten von MEXC wider. Alle Rechte verbleiben bei den ursprünglichen Autoren. Sollten Sie der Meinung sein, dass Inhalte die Rechte Dritter verletzen, wenden Sie sich bitte an [email protected] um die Inhalte entfernen zu lassen. MEXC übernimmt keine Garantie für die Richtigkeit, Vollständigkeit oder Aktualität der Inhalte und ist nicht verantwortlich für Maßnahmen, die aufgrund der bereitgestellten Informationen ergriffen werden. Die Inhalte stellen keine finanzielle, rechtliche oder sonstige professionelle Beratung dar und sind auch nicht als Empfehlung oder Billigung von MEXC zu verstehen.