Der Rechnerverbund NRW - eine BestandsaufnahmeChristian Bischof
[email protected] Rechen- und Kommunikationszentrum der RWTH Aachen
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Die Idee
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Die Ursprüngliche Idee (2000) Das „Rechnen“ unterstützen • anwendungsbezogene Rechenleistung skalierbar von Workstation bis Hochleistungsrechner • durchgängige Verfügbarkeit von (kommerzieller) Software • Abstimmung von Hard- und Software • Beratung und Unterstützung
• homogenes User Interface • Umgebung • Datenhaltung • Benutzerunterstützung
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Rechnernutzungspyramide Höchstleistungsrechner
Hochleistungsrechner
Vektor-/ Parallel-System
der methodisch anspruchsvolle Schritt mit hohem Beratungsaufwand Workstations und PCs
Rechenleistung
Mono-Skalarprozessor
Breite der Nutzung RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Vernetzte Versorgungslandschaft •
Denkansatz: Jede Hochschule bringt von „ihrem“ Rechner und ihrer spezifischen Kompetenz einen Teil in einen Pool ein
•
Verbund erlaubt das Setzen strategischer Akzente an den Hochschulen, die „effektiven“ Investitionszyklen werden verkürzt
Siehe auch: HIPEC NRW HIgh PErformance Computing Nordrhein-Westfalen Kooperatives Versorgungskonzept für das Hoch- und Höchstleistungsrechnen in den Hochschulen des Landes , MSWF NRW Januar 2002 http://www.mwf.nrw.de/hochschulen_in_nrw/verwaltung/dv_netze_hochschulen/HIPEC-NRW_Konzept2002.pdf RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Gemeinsames Vorgehen • gemeinsame Kontenverwaltung • eine gemeinsame Rechenberechtigung für alle Systeme wird durch das Heimat-RZ des Benutzers vergeben • freie Wahl des Systems durch den Nutzer entsprechend seiner Anforderungen
• gemeinsame Datenhaltung • Daten stehen auf jedem System transparent zur Verfügung
• gemeinsame Beratung • Der methodisch anspruchsvolle Schritt ist vom PC/Workstation zum Hochleistungsrechner
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Vorteile • Daten- und Rechnerverbund zur landesweiten Nutzung mit einem lokalen Antrag ⇒ ⇒ ⇒ ⇒ ⇒ ⇒
Abbau bürokratischer Hürden Problemlose Tests zur SW-Portierung ein Datenraum; keine manuelle Synchronisierung kurze Innovationszyklen für Nutzergesamtheit breites Spektrum an Hard- und Software Lastverbund ( ≠ Jobverbund)
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Rückblick
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Dezember 2000 – Papier des ARNW •
• • •
•
„Die zunehmenden Ansprüche der Benutzer in den Hochschulen erfordert aufgrund der personellen und finanziellen Restriktionen eine andere Organisationsform, welche über die traditionellen Universitätsgrenzen hinausgeht.“ „Aufgaben, die in den einzelnen Hochschulrechenzentren gleichermassen anstehen, können arbeitsteilig gelöst werden, um die dringende Weiterentwicklung .. voran zu bringen.“ „Im Gegensatz zu Outsourcing .. verbleibt das know-how und die Kontrolle ... bei den Hochschulrechenzentren.“ „Mit dieser Organisation der Ressourcen ergänzen sich die Dienstleistungen der einzelnen Hochschulrechenzentren zu einem neuen Ganzen und verbessern das Niveau der IT-Versorgung damit deutlich.“ http://www.rv-nrw.de/publ/Abschlussbericht.pdf
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Juli 2001 – Datenmanagement (AC,E,MS) •
•
•
•
Papier „Kompetenzverbund und Datenmanagement im Rechnerverbund NRW“, Bischof, Held, Lix. http://www.rv-nrw.de/publ/Endversion_Dachpapier.pdf „Die RZ in AC, E, MS beabsichtigen, die Kernzelle für einen im RVNRW ausbaufähigen Kompetenzverbund für verteiltes Datenmanagement zu bilden“. „AC wird sich Backup und Archiv federführend zuwenden, E NAS und SAN vorantreiben, MS neben weiterem Ausbau von DCE/DFS auch Helpdesk- und Kollaborationssysteme evaluieren. Entsprechende HBFG-Anträge sind in AC und E in Vorbereitung, MS wird nächstes Jahr folgen.“ Ausblick: „Das G-Win ermöglicht effiziente und moderne Verfahren zum verteilten Datenmanagement, die im Rahmen des Kompetenzverbundes erprobt werden.“ RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Dez. 2001 – Seminar Speichersysteme •
Verteilte Sicherung von Backupdaten im Dreieck AC, E, MS
•
Vereinbarung einer Dienstvertretung bei schwerwiegenden Störungen und Ausfällen (Juli 2002). http://www.rv-nrw.de/Koop/Vertretungsregelung_4Jul02.pdf Erstes Mal, daß eine hochschulübergreifende Betriebsvereinbarung abgeschlossen wurde.
•
Ausblick: „Das G-Win ermöglicht effiziente und moderne Verfahren zum verteilten Datenmanagement, die im Rahmen des Kompetenzverbundes erprobt werden.“ RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Dienste über das Gwin bedeutet • Der Qualität der durchgängigen (!) Netzanbindung kommt eine ganz andere Bedeutung zu: • Roundtrip Zeit von AC zu Köln (Netcologne): 5 msec zu Essen 18, Duisburg 23, Münster 23 (über Bielefeld) • Kooperative IT-Dienste brauchen bessere Dienstgüte, insbesondere Latenz (Brief von DFN Verein 12.06.03, positive Resonanz des DFN)
• Es tun sich ungewohnte Baustellen auf: • Endanwender mit TSM hat ganz neue Netzansprüche (Applikationsperformanz im Vergleich zu „ping“). • Zusammenarbeit mit Mitarbeitern entfernter RZ ist technische, menschliche und organisatorische Herausforderung. • Ein lokal „rund“ laufendes System ist Minimalvoraussetzung.
• Alle Beteiligten lernen viel neues dazu! RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Beschaffungskooperationen • Tivoli (Federführung Essen, Beginn 2/2003): • 10 Universitäten, 3 Fachhochschulen • Vertrag über 4,3 Mio. €, 100+20+20 Unterstützungstage, 5 Jahre support incl. updates • 4 Teilprojekte (Performance and Availability, Configuration Mgmt., Identity Manager, Storage)
• BMC (Federführung Hagen, Beginn 6/2003): • 6 Universitäten, 8 Fachhochschulen • Vertrag über 2,4 Mio €, 120 Unterstützungstage, 5 Jahre support incl. updates
• Imperia (Federführung Münster, 2002) • Keine explizit RV-NRW geförderte Beschaffung, starke Verbilligung durch gebündeltes Interesse. • Kompetenzbündelung bei Einführung der Software RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Operative Systeme im RV-NRW
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
SunFire Cluster RWTH Aachen SunFire 15k Cluster
SunFire 6800 Cluster CPU
Crossbar
Memory
CPU
Memory
CPU
Memory
CPU
Memory
CPU
Memory
CPU
Memory
Memory
CPU
Memory
Memory
CPU
Memory
Memory
Crossbar
CPU
• 24 Ultrasparc III (900 MHz) • 24 Gbyte memory • Gigabit Ethernet
CPU • FireLink Switch (fast data interconnect) CPU 4 x SF15k, 8 x SF6800, 8 x SF6800 three clusters: CPU •To be installed: CPU Processor upgrade (Ultrasparc IV,CPU1.5 GHz) Memory
Memory
CPU
Crossbar Crossbar
Memory
Memory
16 x SF 6800 system with:
Crossbar
Memory
CPU Memory CPU Memory CPU Memory CPU Memory Memory Memory CPU CPU Memory Memory CPU CPU Memory Memory CPU CPU Memory Memory CPU CPU Memory Memory CPU CPU Memory Memory CPU CPU Memory Memory CPU Memory CPU CPU Memory CPU Memory Memory CPU CPU Memory Memory CPU CPU Memory Memory CPU Memory CPU CPU Memory CPU Memory Memory CPU Memory CPU CPU Memory CPU Memory Memory CPU CPU Memory Memory Memory Memory CPU CPU CPU CPU Memory Memory Memory Memory CPU CPU CPU CPU Memory Memory Memory Memory CPU CPU CPUMemory CPU Memory Memory Memory CPU CPU CPU CPU Memory Memory Memory Memory CPU CPU CPU CPU Memory Memory Memory Memory CPU CPU CPU CPU Memory Memory CPU CPU Memory Memory Memory Memory CPU CPU CPU CPU Memory Memory Memory Memory CPU CPU CPU CPU Memory Memory CPU CPU Memory CPU Memory CPU Memory Memory Memory CPU CPU Memory CPU CPU Memory Memory CPU CPU Memory Memory CPU CPU CPU Memory CPU Memory Memory Memory CPU CPU Memory Memory CPU CPU Memory Memory CPU CPU Memory CPU CPU Memory CPU Memory CPU Memory
Crossbar Crossbar Crossbar Crossbar Crossbar
Memory
Memory
Crossbar Crossbar
Memory
Crossbar
Crossbar
CPU CPU • 72 Ultrasparc III (900 MHz) CPU CPU • 144 Gbyte memory CPU • GigabitCPU Ethernet Memory
CPU
Crossbar Crossbar Crossbar Crossbar Crossbar Crossbar
4 x SF 15k system with:
Memory
Memory
Storage Area Network (SAN) RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Collaborative Product Commerce (Windchill) • HBFG-gefördertes Gemeinschaftsprojekt (Produktenwicklung über Verteilte Standorte, www.proverstand.de) • des RWTH-Institutes für konstruktiven Maschinenbau (IKT), • des Softwareherstellers PTC und • des RZ der RWTH
• Lehrstühle aus mehreren HS und FHs des Landes als Nutzer. • 3,25 Mio Euro, 5 Jahre Wartung. • Der Windchill-Server an der RWTH
• RZ betreibt die Server (4 Windchill-, 2 Oracle-Server) und die Infrastruktur. • PTC ist für die Windchill-Installation und Pflege verantwortlich • Das IKT übernimmt Aubildung, Support und Organisation
• Windchill ermöglicht ein Web-basiertes, verteiltes Konstruieren von komplexen technischen Systemen und stellt eine Umgebung zur Durchführung des dazu notwendige Projekt- und Produktdatenmanagements zur Verfügung. RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Nochmal - Netzdienstgüte • Windchill-System: • • • •
Projektmanagement elektronischer Bauteilkatalog Produktkonfigurator Produktdatenmanagement
• Interaktive (!) Zugriffe der Klienten auf Server, und darunter liegende Oracle Datenbank erfolgen über das G-WiN. • Kritisch: Latenzzeiten • Unabhängig von der Lage der Hochschule im Lande sind gravierende Sprünge in der Latenz unakzeptabel • erforderliche durchgängige Netzqualität! • Zusammenarbeit der beteiligten RZ mit dem DFN notwendig.
•
Kein RV-NRW gefördertes Projekt, wird aber im RV-NRW nutzbar gemacht (mit Einverständnis des IKT).
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Archivserver •
• • •
Notwendig für die effizienten Nutzung von großen HPC-Systemen sind hochvolumige Archivserver zur längerfristigen Datenhaltung. Diese sind auch ein wichtiges Kommunikationsmedium für verteilte Gruppen dar. Die RWTH wird einen solchen Dienst als Landesdienst anbieten. Dies ist eine Ergänzung von lokalen Kapazitäten. Installiert wird gegenwärtig ein Bandarchiv der Firma IBM. • Bandvolumen von 0.5 Pbyte (unkomprimiert), • 16 Laufwerke der neuesten Generation (IBM Magstar 3592) • TSM-Server mit sehr hoher interner Bandbreite und einem großen Plattencache von 30 Tbyte. • Der TSM-Server ist über Gbit-Ethernet direkt an das G-WiN angebunden.
•
Die in der Kooperation AC/E/MS gesammelten Erfahrungen sind ganz maßgeblich in die Systemauswahl und das Betreibskonzept eingeflossen.
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Konfiguration des Backup-/Archiv-Servers GigaBit Ethernet IBM p650 6M2 8 Prozessoren à 1,45 GHz 64 GB Hauptspeicher 6 x GigaBit Ethernet 14 x Fibre Channel
IBM 2109 F32 32 Port FC-Switch 2 GBit/Port 6
6
4
3* IBM FastT900, jew. 10TB netto IBM 3494 Tape Library, 16 x Magstar 3592 (bestückt 0,5 PB) RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Storage-Server in Essen • Speichersystem • SUN SE 9980V (Hitachi Lightning 9980V), Kapazität 11 TB
• Switch-Fabric • Brocade 3800, 4 Switche mit jeweils 16 Ports
• Fileserver integriert in die SAN-Umgebung • Filer-Head Auspex NSc 3000 (Cluster)
• Daten • Home-Directory für Anwender (ca. 1 TB) • Software-Repository (ca. 500 GB)
• Datensicherung • NDMP (TSM)
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Austausch des Fileservers • Auspex • Aufgabe des Geschäftsbetriebs Feb. 2003 • Gerät entspricht nicht mehr den Anforderungen (insbesondere Support) • Austausch des Gerätes
• Netapp 940 c • Installation Sept./Okt. 2003 • Datenmigration/Inbetriebnahme ca. 08.10.2003
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
SAN-Management • Tivoli Network Manager • Installation im Feb./März 2003 • Installation teilweise falsch beschrieben • SUN/Hitachi nicht unterstützt
• Tivoli Network Manager, Beta-Version • Installation im April/Mai 2003 • Installation erheblich verbessert, gut beschrieben • SUN/Hitachi nicht unterstützt
• Tivoli SAN Manager • Nachfolgeprodukt • Roadmap: SUN/Hitachi unterstützt • Einsatz geplant für Oktober/November 2003 RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Linux-Parallelcluster in Münster • ZIVCluster: • • • • •
94 compute nodes (IBM) 460 Gflop peak 97 GB RAM Fast Ethernet und Myrinet Interconnect MPICH-gm
• http://zivcluster.uni-muenster.de • Steht im RV-NRW seit August zur Verfügung.
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Beantragte Projekte mit RV-NRW Bezug • Dortmunder PC-Cluster • Landeslizenz für ANSYS (prof. Version) und CFX • Um die 1000 Knoten
• Paderborner Visualisierungs-Cluster • 64-bit Architektur
• Wuppertaler PC-Cluster • 1024 Knoten • Parastation Software
• Landeslizenz ProEngineer (Federführung Uni Duisburg) • Landeslizenz IDEAS (Federführung FH Bielefeld)
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Praktische Relevanz der RV-NRW Dienste im Land
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
RV-weite Authentifizierung •
Aachen
Aktuell 93 Benutzer im RV-NRW
3
4
Bielefeld
12
Bonn
2 22
Düsseldorf 9 1 13
5 3 10
9
Dortmund Duisburg Essen Hagen Köln Münster Paderborn Siegen
•
Authentifizierung mit DCE funktioniert zuverlässig (MS und AC), aber • Nicht ohne weiteres auf neue Dienste (ohne Unix-Login) erweiterbar • DCE is on the way out (z.B. nicht für Linux)
•
Unklar: Wie kann eine RV-Nutzerverwaltung in aktuelle Ansätze (z.B. TIM) integriert werden?
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Gemeinsamer Datenraum & SW Installation • Gemeinsamer Datenraum (DFS): • Funktionierte in MS und AC (in AC nicht mehr)
• RV-weit installierte Software: Lange und kontroverse Diskussionen der Systemverantwortlichen über • logische Installationspfade, die auf allen beteiligten Systemen identisch sein müssen • Plattform-Management • Instanz bei ‚philosophischen‘ Differenzen
• Aber: • Der gemeinsame Datenraum wurde von den RV-NRW Nutzern nicht genutzt. • Keine Software wurde systemübergreifend installiert. RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Nutzung des SunFire HPC-Systems (nach Fakultäten / RV-NRW, Apr. 01 – Sep. 03) CPU Stunden (72.000 = 100 CPU-Monate)
144.000
72.000
0 FB1
FB2
FB3
FB4
FB5
FB6
RV-NRW Workshop - 01.10. 2003
FB7
FB8
FB10
RV-NRW
Rec hen - un d Ko mm unik at io n szentr um
Nutzung des SunFire Systems durch Nutzergruppen anderer Hochschulen CPU-Stunden pro Monat user shbi cb01 co01 es01 gb01 hb01 hb02 nd01 rs02 xbo16im xbo16jm diet gaus matt stra weig xbna6sc atou ms00 kols wein west asin fede pekl rope tomr jung nguy
Hochschule
2003_09
2003_08
2003_07
2003_06
2003_05
2003_04
2003_03
2003_02
2003_01
Bielefeld Bochum Bochum Bochum Bochum Bochum Bochum Bochum Bochum Bochum Bochum Bonn Bonn Bonn Bonn Bonn Bonn Dortmund Dortmund Duisburg Duisburg Duisburg Köln Münster Münster Münster Münster Paderborn Paderborn
16779
15543
12067 1
16197 913
15039 6338 1
9236 13352
25368 10241 25368
17203 3361
40168
17026 17406 340
9577 2539 163
788 8570 1338
8574 5278 14
5806 430
189 2052
9672
8950
4408
6939 884 2 1 70 37 607 430
4836
3161
1 616 40
37
66
175
1
930
1
3217 762
3122 3296
216
1166
4
192
1009
2333
10831 2672
8257 3161
15432 4454 1
2715
2252
10267 2619 573
21
597
16838 1444 1103
3413
2 60
2088
49
1245
1 3841
2
9 2
153
295
756
1024
1989
375
8091
2445
1
1
6
45
1
984
1
1324
RV-NRW Workshop - 01.10. 2003
248
86 105 1
1 167
1 4324 2
1 2 134
2 1 82
1706
Rec hen - un d Ko mm unik at io n szentr um
Wieso werden RV-NRW Ressourcen nicht stärker genutzt?
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Aussendarstellung • Ein Experiment: • Wie leicht finden sie die Seite www.rv-nrw.de von der home page ihres RZ? • Sind die RV-NRW Leistungen Ihres RZ adäquat dargestellt? • Wo wird bei den von ihrem RZ angebotenen Diensten auf mögliche Alternativen im RV-NRW hingewiesen? • … liegt sicher auch daran, dass der Rechnerverbund erst zur Vorbereitung des Treffens am Mittwoch wieder in den allgemeinen Fokus gerückt ist.
• Die Benutzer kommen von selbst sicher nicht so ohne weiteres auf diese Idee, denn so etwas gab es noch nie!
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
http://www.rv-nrw.de
• Vielleicht typisch:
Helpdesk/SW Spotlight in Aachen • Die RV-Nutzer haben die Möglichkeit, Anfragen an den RZ-Helpdesk zu richten. Nutzung Stand 7/03 • Spotlight 7/02: ABAQUS: Uni Paderborn: 1985 Jobs Uni Dortmund: 7 Jobs ANSYS: Uni Dortmund: 147 Jobs
RV-NRW Workshop - 01.10. 2003
Anfragen
Zeit (Std.)
Münster
14
2
Paderborn
7
3
Dortmund
16
2
Bielefeld
4
1
Bochum
68
10
Köln
7
1
Duisburg
21
5
Düsseldorf
2
1
Essen
6
2
Bonn
1
4
Rec hen - un d Ko mm unik at io n szentr um
Was will ein Benutzer? •
Einen Dienst (z.B. Windchill, Archiv): •
•
Beratung: •
•
Unklar: Inwieweit waren die Anwendungs-Berater (primäre Schnittstelle zu den Kunden in der Hochschule) bisher involviert? Die Idee der vernetzten Helpdesks wurde nicht weiter verfolgt.
Seine gewohnte Umgebung möchte er durch Nutzung von RV-NRW Ressourcen nicht schmälern: •
Duisburger Nutzer wollte nicht „seine“ CFX Lizenz für das Laufen auf dem Aachener Rechner hergeben.
Frage: Ist die Sicht eines gemeinsamen Datenraumes zu weit gegriffen? Wollen Nutzer „application server“?
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um
Wie geht es weiter? • RV-NRW als Kompetenzverbund funktioniert. • Auf der operativen Ebene gibt es Defizite: • Kein formales committment über die Verfügungstellung des Dienstes hinaus, insbesondere Werbung und Beratung. • Pragmatische Fokussierung auf Bedürfnisse des Benutzers anstatt „interessanter“ systemtechnischer Experimente. • Der Verbund als „second class citizen“.
• Gleichwohl: Aus meiner Sicht führt kein Weg an einer stärkeren Bündelung von operativen Diensten vorbei.
RV-NRW Workshop - 01.10. 2003
Rec hen - un d Ko mm unik at io n szentr um