A Visualization Platfom for Disk Failure Analysis

Loading...
Thumbnail Image

Date

2018

Journal Title

Journal ISSN

Volume Title

Publisher

IEEE

Abstract

It has become a norm rather than an exception to observe multiple disks malfunctioning or whole disk failures in places like big data centers where thousands of drives operate simultaneously. Data that resides on these devices is typically protected by replication or erasure coding for long-term durable storage. However, to be able to optimize data protection methods, real life disk failure trends need to be modeled. Modelling helps us build insights while in the design phase and properly optimize protection methods for a given application. In this study, we developed a visualization platform in light of disk failure data provided by BackBlaze, and extracted useful statistical information such as failure rate and model-based time to failure distributions. Finally, simple modeling is performed for disk failure predictions to alarm and take necessary system-wide precautions.
Binlerce depolama aygıtının birarada çalıştığı büyük veri merkezi gibi ortamlarda, bir veya daha çok depolama aygıtının aynı anda bozulması veya beklenenden farklı şekillerde çalışması, artık süpriz olmaktan çıkıp bilinen hata haline gelmi¸stir. Bu disklerin üzerinde tutulan veri yığınları çoğu zaman kopyalama yöntemiyle, bazen de silinti kodları ile korunmakta ve verinin güvenli şekilde depolanmasını sağlamaktadır. Bununla birlikte veri korunumu yöntemlerinin optimizasyonu için disk sistemlerinin hata oranlarının modellenmesi gerektirmektedir. Bu modelleme işlemi, tasarım aşamasındaki verilecek kararları ve koruma yöntemlerinin verilen bir uygulama için optimizasyonunu kolaylaştıracaktır. Bu çalışmamızda BackBlaze’in sunduğu disk hasar bilgisi ışığında bir görselleştirme platformu geliştirilmiş hata oranları ve model tabanlı ilk hataya kadar olan zaman dağılımı gibi yararlı istatistiki bilgilere ulaşılmıştır. Bu bilgiler ışığında tüm sistem seviyesinde öncül önlemler alınabilmesi için disk hasar oranına dayalı basit modellemelere gidilmiştir.

Description

Keywords

Failure analysis, Hard disks, Nanoelectromechanical systems, Machine learning, Veri merkezi, Görselleştirme, Modelleme, Dogs, Sabit disk, Data models, Data visualization, Elastic search

Turkish CoHE Thesis Center URL

Citation

Yigit, I. O., Arslan, S. S., & Zeydan, E., (May 2-5, 2018) 26th Signal Processing and Communications Applications Conference (SIU). A visualization platfom for disk failure analysis. Izmir, Turkey. 1-4.

WoS Q

N/A

Scopus Q

N/A

Source

26th IEEE Signal Processing and Communications Applications Conference, SIU 2018

Volume

Issue

Start Page

1

End Page

4