12 Aug 2009

OpenSourced distributed parallel fault-tolerant filesystems

Im Rahmen meiner aktuellen Tätigkeit bin ich immer wieder auf das Problem gestoßen, große Datenmengen ausfallsicher und günstig speichern zu müssen.

Bislang nutzen wir dafür vor allem herkömmliche Technologien: NFS, DRBD und große, schnelle Festplatten.

Seit gestern habe ich nun ein Test-System zur Verfügung bestehend aus zwei Storage-Servern mit je 15 300GB Fesplatten. In diesem Artikel und gegebenenfalls Folgenden, möchte ich meine Erfahrungen mit alternativen Lösungen festhalten.

Eine Liste der aktuellen „Distributed parallel fault-tolerant file systems“ (DPFTFS).

In meinen Tests berücksichtige ich lediglich OpenSource-Lösungen, um die Kosten gering zu halten und auch einen Überblick zu erhalten, wie der Status der offenen Lösungen schon ist.

So sehen die Systeme aktuell aus:

# fdisk -l

Disk /dev/sda: 72.7 GB, 72746008576 bytes
255 heads, 63 sectors/track, 8844 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

  Device Boot      Start         End      Blocks   Id  System
/dev/sda1               1         487     3911796   83  Linux
/dev/sda2             488        1096     4891792+  82  Linux swap / Solaris
/dev/sda3            1097        1462     2939895   83  Linux
/dev/sda4            1463        8844    59295915    5  Extended
/dev/sda5            1463        1949     3911796   83  Linux
/dev/sda6            1950        2315     2939863+  83  Linux
/dev/sda7            2316        3289     7823623+  83  Linux
/dev/sda8            3290        3898     4891761   83  Linux
/dev/sda9            3899        8844    39728713+  83  Linux

Disk /dev/sdb: 1497.1 GB, 1497198755840 bytes
255 heads, 63 sectors/track, 182024 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

Disk /dev/sdb doesn't contain a valid partition table

Disk /dev/sdc: 1497.1 GB, 1497198755840 bytes
255 heads, 63 sectors/track, 182024 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes

Disk /dev/sdc doesn't contain a valid partition table

Aus der oben verlinkten Liste habe ich mir ein paar heraus gepickt, welche ich mir in den nächsten Tagen/Wochen anschauen werde:

Hadoop (http://hadoop.apache.org/)
CloudStore (http://kosmosfs.sourceforge.net/)
GlusterFS (http://www.gluster.org/)
MogileFS (http://www.danga.com/mogilefs/)
Ceph (http://ceph.newdream.net/)

Natürlich gibt es noch viele, viele mehr, jedoch ist auch meine Zeit begrenzt und ich kann unmöglich alles ausprobieren, was in der Liste auf Wikipedia auftaucht.

Morgen werde ich mit Hadoop beginnen und möchte euch bis dahin vertrösten 😉

Die Artikel werde ich alle auf jeden Fall mit cluster-filesystems taggen, damit ihr sie einfach finden könnt.

« critical security fix : Böser Exploit für WordPress Cluster Filesystems 1: Hadoop »