thumb

Data Protection gehört zu den wichtigen Grundprinzipien der IT, denn Datenverlust aufgrund physikalischer Defekte oder wegen Software-Problemen kann die Arbeit von Unternehmen beeinträchtigen oder gar zerstören. Mit Methoden wie RAID oder Mirroring versuchen die IT-Abteilungen deshalb gegenzusteuern, indem die Daten auf mehrere Festplatten verteilt werden, was in der Regel bei einem Ausfall von bis zu drei Platten zur Wiederherstellung der Datensets führen kann. Die Nachteile bestehen in dem Aufstocken der Plattenkapazität sowie auf der Performance-Seite.

Mit der Replikation der Daten, das heisst ihrer systematischen Verteilung über verschiedene Knoten eines Clusters, steht eine Alternative zu RAID zur Verfügung: Durch den Einsatz von Erasure Coding werden die Daten in Fragmente aufgesplittet, mit redundanten Datenteilen für ein Recovery ergänzt und dann über ein Netz oder Cluster verteilt. Gegenüber RAID wird eine geringere Anzahl von redundanten Elementen gebraucht, und der Recovery-Prozess ist kürzer.

Aus einem Projekt an der Universität von Trondheim in Nordheim ist das kleine Startup Memoscale hervorgegangen, das seit 2015 eine Methode zur Verbesserung von Erasure Coding anbietet. Wie Per Simonsen, CEO und Co-Founder, ausführt, weist Erasure Coding ebenfalls Probleme auf: Netzwerkverkehr, I/O- und Compute-Prozesse nehmen zu, während gleichzeitig Performance-Einbussen bei Latenzen und Durchsatz auftreten. Ausserdem seien die Kosteneinsparungen nur begrenzt, sagt Simonsen.

Mir der Erasure Coding Library von Memoscale sollen sich diese Schwachstellen beheben lassen. Die Library ist optimiert für Intel- und ARM-Prozessoren und hat in einigen Benchmarks positiv abgeschnitten, zum Teil war sie sogar schneller als die Intel-Lösung. Bisher werden folgende Opensource-Speichersysteme unterstützt: Ceph, Swift und Hadoop HDFS. Das junge Unternehmen beabsichtigt, sich weiter aktiv in der Opensource-Szene zu betätigen, sucht aber auch die Annäherung an einen der grossen Speicheranbieter. Ein OEM-Vertrag mit einem Hersteller sei in Vorbereitung, berichtet Simonsen.

Erasure Coding ist besonders sinnvoll bei grossen Datenmengen sowie bei Applikationen und Systemen, die keine Ausfälle vertragen können und ein schnelles Recovery brauchen. Memoscale will vor allem grosse Unternehmen adressieren.

Erasure Coding spielt bei vielen Neuentwicklungen eine Rolle und wird auch gerne im Opensource-Umfeld eingesetzt. So benützt das Startup Minio, das an einer Cloud-Storage-Plattform für unstrukturierte Daten arbeitet, ebenfalls diese Technologie. Für kontinuierliches Mirroring zwischen verschiedenen S3-kompatiblen Storage-Services in der Cloud soll eine Struktur von bis zu 16 Festplatten auf einer Parity-Basis mit Erasure Code sorgen.

23798-23798erasercoding1.jpg
Grafik: Memoscale
23798-23798erasercoding2.jpg
Grafik: Memoscale