MareNostrum - Der Supercomputer in der Kirche

Seite 2: Clustertechnik

Für die Kommunikation der auf unterschiedlichen Knoten laufenden Jobteile einer Anwendung setzt MareNostrum eine Implementierung des offenen Message Passing Interface (MPI)-Protokolls ein. MPI stellt den de-facto-Standard für den Datenaustausch in Distributed-Memory-Umgebungen dar. Bei Programmen, die MPI-Bibliotheken benutzen, verteilt sich die Arbeit über eine Reihe von Prozessen, die alle autonom ablaufen und keinen direkten Zugriff auf die Daten und Variabelen der anderen Prozesse haben. So genanntes Message Passing ermöglicht es den Prozessen, ihre Informationen untereinander auszutauschen.

Für die physikalische Kopplung der einzelnen Knoten ist die bei Clustern häufig zu findende Myrinet-Technik zuständig. Bei diesem ANSI-Standard, dessen Link- und Routingspezifikationen offengelegt sind, werden die Netzwerk-Interfaces der einzelnen Knoten mit speziellem Myrinet-Glasfaserkabel verbunden. Für sehr kurze Latenzzeiten sorgt die direkte Kommunikation der Karten-Firmware mit den Anwendungen und dem Netzwerk unter Umgehung des Betriebssystems. Myrinet schafft dadurch einen Datendurchsatz, der in der Nähe des theoretischen Maximums der physikalischen Schicht, also des Glasfaserkabels, liegt. Durch den Einsatz eines separaten Verwaltungsnetzwerkes auf Ethernet-Basis ist zudem gewährleistet, dass nicht die Netzwerküberwachung die Datenkommunikation zwischen den Blades ausbremst. Für die Cluster-Überwachung greifen die MareNostrum-Spezialisten auf die Open-Source-Management-Software Ganglia zurück.

Als Filesystem für ihren Cluster setzt das Team IBMs POSIX-konforme General Parallel File System (GPFS) ein, das es für Linux und AIX gibt. Unter diesem auf Parallelisierung, Hochverfügbarkeit und einfache Skalierbarkeit ausgelegten Shared-Disk-Filesystem können mehrere Knoten im Cluster gleichzeitig lesend und schreibend auf eine Datei zugreifen, ohne dass diese gesperrt werden muss. Dazu werden die Datenblöcke einer Datei über mehrere Platten verteilt abgelegt.

Anwendungen

Computer-Cluster wie MareNostrum spielen Ihre Stärken bei der Parallelisierung aus. Dabei wird ein vielschichtiges Problem in kleinere Teilaufgaben zerlegt, die die verschiedenen Knoten des Clusters relativ autonom und simultan abarbeiten. Eine besondere Herausforderung für die Parallelisierung stellt die Skalierbarkeit dar. Bei steigender Prozessorzahl nehmen auch Verwaltungs -und Kommunikationsoverhead im Netzwerk zu. Mehr Prozessoren haben also nicht unbedingt die gewünschte Leistungssteigerung des Gesamtsystems zur Folge. Hochgeschwindigkeitstechniken wie Myrinet und MPI, die speziell für Cluster-Systeme entwickelt wurden, versuchen, den Overhead in Zaun zu halten, doch beliebig erweiterbar sind solche Rechnerverbunde in der Praxis nicht.

Die Systemarchitektur eignet sich gut für die Auswertung von riesigen Datenmengen, wie sie zum Beispiel in der Klimaforschung und der Meteorologie anfallen. Projekte auf MareNostrum beschäftigen sich mit Wetter- und Luftverschmutzungsvorhersagen und mit der Modellierung von Klimaveränderungen in Europa. Auch bei komplexen Sachverhalten, die sich sonst nicht, oder nur mit großem Aufwand, in der Realität abbilden lassen, zeigen Cluster in Simulationsaufgaben, was sie wert sind. Ein prominentes Beispiel hierfür ist die Proteinfaltung, bei der der Zusammenhang zwischen nicht „richtig“ gefalteten Proteinen und dem Entstehen von Krankheiten wie Krebs und Alzheimer erforscht wird.

Nicht nur für rein wissenschaftliche Projekte steht der katalanische Supercomputer zur Verfügung. Forscher teilen die Rechenleistung mit Unternehmen aus Industrie und Wirtschaft, die auf dem System Anwendungen in Bereichen wie Pharmazeutik, Finanzen und Aeronautik laufen lassen.

Ausblick

Das MareNostrum-Team experimentiert derzeit mit dem jüngsten Spross in IBMs Blade-Familie: dem Blade-Server mit Cell-Prozessor, dessen offizielle Markteinführung für das dritte Quartal dieses Jahres vorgesehen ist. Cell-CPUs beherbergen mit einem PowerPC-Kern und acht zusätzlichen digitalen Signalprozessorkernen (DSPs) insgesamt neun Prozessorkerne. Der PowerPC-Kern kümmert sich um die Prozessverwaltung und die Datenverteilung und gibt den DSPs ihren Anweisungen. Diese können sich ganz ihrer Hauptaufgabe, komplexen Vektorberechnungen, widmen.

Cell-Prozessoren sind vor allem in grafikintensiven Bereichen wie 3D-Rendering oder Mustererkennung in ihrem Element. IBM hat den Cell in Zusammenarbeit mit Sony und Toshiba entwickelt. Gemeinhin dürfte er auch als das Herzstück von Sonys geplante Spielekonsole Playstation 3 bekannt sein. Jeder Bladeserver ist mit zwei Cell-CPUs bestückt, die sich 1GByte gemeinsames DRAM teilen. Im Unterschied zum Produktivsystem läuft auf den Cell-Blades im Testbetrieb nicht Suse Linux Enterprise, sondern der Red Hat-Ableger Fedora Core für PowerPC.

Als schnellster Supercomputer in Europa wurde MareNostrum inzwischen überholt. So strebten der im März dieses Jahres im Forschungzentrum Jülich eingeweihte Blue-Gene-Superrechner von IBM und Tera-10, ein Itanium2-basiertes SMP-Cluster von Bull , das bei der französischen Kommission für Atomenergie (CEA) in Bruyeres-le-Chatel steht, an ihm vorbei.

Die neue Top500-Liste wird im Rahmen der Internationalen Supercomputer-Konferenz ISC, der vom 27. bis zum 30. Juni in Dresden stattfindet, präsentiert. (akl)