Internet-Graphen

Klaus Heidtmann Universität Hamburg, Fachbereich Informatik, Vogt-Kölln-Str. 30, 22527 Hamburg [email protected]

Zusammenfassung: Bildeten die Keimzellen des Internet noch kleine und einfach strukturierte Netze, so vergrößerten sich sowohl seine physikalischen als auch seine logischen Topologien später rasant. Wuchs einerseits das Netz aus Rechnern als Knoten und Verbindungsleitungen als Kanten immer weiter, so bedienten sich andererseits gleichzeitig immer mehr Anwendungen dieser Infrastruktur, um darüber ihrerseits immer größere und komplexere virtuelle Netze zu weben, z.B. das WWW oder soziale Online-Netze. Auf jeder Ebene dieser Hierarchie lassen sich die jeweiligen Netztopologien mit Hilfe von Graphen beschreiben und so mathematisch untersuchen. So ergeben sich interessante Einblicke in die Struktureigenschaften unterschiedlicher Graphentypen, die großen Einfluss auf die Leistungsfähigkeit des Internet haben. Hierzu werden charakteristische Eigenschaften und entsprechende Kenngrößen verschiedener Graphentypen betrachtet wie der Knotengrad, die Durchschnittsdistanz, die Variation der Kantendichte in unterschiedlichen Netzteilen und die topologische Robustheit als Widerstandsfähigkeit gegenüber Ausfällen und Angriffen. Es wird dabei Bezug genommen auf analytische, simulative und zahlreiche empirische Untersuchungen des Internet und hingewiesen auf Simulationsprogramme sowie Abbildungen von Internet-Graphen im Internet.

Einleitung Netze und Graphen als ihre mathematischen Modelle spielen in sehr vielen Bereichen unseres Lebens eine wichtige Rolle. Auch die technisierte Welt, die uns umgibt, ist voller Netze. Darunter lebenswichtige Versorgungsnetze für Wasser und Energie sowie Verkehrsnetze aus Bus-, Bahn-, Schifffahrts- und Fluglinien. Zwar jünger aber nicht weniger wichtig sind Rechner- und Kommunikationsnetze aus drahtgebunden und drahtlos meist über Funk miteinander kommunizierenden elektronischen Geräten, die mittlerweile durchweg mühelose weltweite Kommunikation z.B. in Form des Internet ermöglichen. Viele nutzen alltäglich beispielsweise das auf dieser Infrastruktur aufbauende WWW als virtuelles Netz aus Hypertextseiten und -verweisen oder soziale Online-Netze. Seit Mitte der 1990er Jahre entstehen Netzgemeinschaften als eine Sonderform der Gemeinschaft von Menschen, die sich via Internet austauschen. Ein Grund hierfür liegt wohl in der Tatsache, dass unsere Gesellschaft in vieler Hinsicht vernetzt ist. Sie kann sogar als riesiger sogenannter sozialer Graph betrachtet werden, in dem jeder von uns ein Knoten ist. Je zwei davon sind unmittelbar durch eine Kante verbunden, wenn sich die beiden entsprechenden Personen z.B. kennen, miteinander kommunizieren, zusammen arbeiten, befreundet oder gar miteinander verwandt sind. Mit entsprechenden Anwendungen, z.B. Open Graph, lassen sich diese sozialen Graphen mittlerweile auch bildlich darstellen. Die Geschäftsbeziehungen zwischen Personen oder zwischen Firmen stellen ökonomische Netze dar. Biologische Netze wiederum repräsentieren z.B. Nahrungsketten, die Interaktion zwischen Genen und Proteinen in der Netzmedizin [9] oder die netzartige Ausbreitung von Krankheiten und Epidemien [8]. Und nicht zuletzt die physikalische Welt ist reich an Netzphänomenen wie der Interaktion zwischen Atomen der Materie, zwischen Monomeren in Polymeren u.v.a. [25,27]. Diese große Vielfalt von Einsatzgebieten und die damit verbundenen unterschiedlichen Sichtweisen so vieler verschiedener Fachdisziplinen ist der Netzforschung einerseits sehr zugute gekommen, andererseits war das entsprechende Wissen auf viele wissenschaftliche Fachgebiete verteilt, weshalb Forscher auf dem einen Gebiet oft keinen Zugang zu den Entdeckungen eines anderen hatten. Folglich entstand das interdisziplinäre Forschungsgebiet der Netzwissenschaft (Network Science) mit dem Ziel, theoretische und praktische Vorstellungen und Methoden zur Verbesserung unseres Verständnisses von Netzen natürlichen und menschlichen Ursprungs zu entwickeln, u.a. durch die Nutzung von Ideen und Ergebnissen aus der Mathematik, der Physik, der Informatik, dem Operations Research und aus vielen anderen Bereichen der Natur-, Sozial- und Ingenieurwissenschaften [4,10,23,32,34,35]. Hierbei ist die empirische Untersuchung realer Netze ein wichtiger Bestandteil und Tabellen mit entsprechenden Kenngrößen von Netzen aus vielen Bereichen einschließlich des Internet findet man u.a. in [14,27]. Möglich wurden empirische Untersuchungen größerer Netze erst aufgrund der großen Speicher- und Rechenleistung in der Informationstechnik bzw. der automatischen Netzuntersuchung durch spezielle Computerprogramme (Crawler).

Internettopologien werden häufig mit den zwei folgenden Granularitäten modelliert und vermessen: Auf der Router-Ebene wird jeder Router durch einen Netzknoten dargestellt und auf der Ebene der Domänenverbindungen wird jede Domäne (Autonomes System) durch einen Knoten und die Verbindungen zwischen den Domänen durch Kanten im Internet-Graphen repräsentiert. Im Jahre 2010 bestand das Internet beispielsweise aus 1,2 Mio. Routern als Knoten und 13 Mio. Verbindungen als Kanten auf der Router-Ebene sowie 17.492 Knoten und 47.804 Kanten auf der Ebene zwischen den Domänen. Während das physikalische Netz aus Rechnern und Verbindungskomponenten geographisch immer ausgedehnter und dichter wurde, bauten immer mehr Anwendungen darüber ihrerseits immer neue sowie größere und komplexere virtuelle Netze auf. Beim Internet haben sich somit neben der Untersuchung der physikalischen Topologie auch vielfältig logische Topologien als virtuelle Kommunikationsbeziehungen auf nahezu jeder Netzschicht und insbesondere auf der Anwendungsschicht als äußerst interessant erwiesen (Overlay) [31]. Beispielsweise untersucht die Webometrie seit Mitte der 1990er Jahre mit Hilfe von Messungen das WWW in Form von Webgraphen [37] und die soziale Netzwerkanalyse hat mit dem Aufkommen entsprechender moderner Softwareapplikationen im Internet (u.a. Facebook, Google+, StudiVZ, Twitter) in der Wissenschaft stark an Bedeutung gewonnen [5,7,21,26,30,33]. Es entstanden viele Programme zur Generierung und Analyse von Graphen zu den Internetebenen im Besonderen sowie zu Netzen generell [40,41,42,47] und zahlreiche faszinierende Abbildungen dazu sind u.a. in [27,39,43] und unter Google/Bilder zu sehen, wenn man z.B. die Namen der vier in dieser Arbeit vorgestellten Graphentypen eingibt, z.B. Regular Graph, Random Graph, Small World Network oder Scale free Graph. Die folgende Arbeit gibt einen Einblick in die Entwicklung der Netzforschung bzgl. des Internet und bewegt sich dabei auf zwei Ebenen: der Modellebene mit den mathematischen Grapheneigenschaften, insbesondere der Knotengradverteilung, und den Konstruktionsverfahren für verschiedene Graphentypen sowie der empirischen Ebene u.a. mit den Messungen im realen Internet, welche ggf. konkrete numerische Werte zu den Eigenschaften des Netzes bzw. seines Graphen liefern. Der Text folgt deshalb mehreren Gliederungsaspekten zugleich: auf der Modellebene gemäß den Abschnittsüberschriften und im Großen und Ganzen von einfachen zu immer komplexeren Struktureigenschaften und auf der empirischen Ebene von überschaubaren Basisnetzen bis hin zu sehr umfangreichen und vielfältigen Messungen im gesamten Internet. Beachtung wird dabei speziell Aspekten der Zuverlässigkeit der jeweiligen Netzstruktur geschenkt. Der Fokus der Arbeit liegt mehr auf der Entwicklung und den Zusammenhängen als auf der ausgiebigen Darstellung der einzelnen Graphenmodelle und ihrer reichhaltigen Theorie oder der zahlreichen Messexperimente. Die Überschriften ab dem zweiten Abschnitt beziehen sich jeweils auf ein charakterisierendes Merkmal des dort thematisierten Graphentyps: Regularität, Zufall, Transitivität und Skaleninvarianz.

Grundlegende Begriffe In dieser Arbeit werden hauptsächlich die in der Graphentheorie als einfach oder schlicht bezeichneten Graphen betrachtet und die Anzahl der Knoten eines Graphen wird mit n sowie die seiner Kanten mit m bezeichnet. Die Anzahl von ca. 888 Mio. Anfang 2012 über das Internet verbundenen Geräte gibt einen Eindruck von der Größe der diesem Netz zugrunde liegenden physikalischen Topologie und den entsprechenden Graphen. Darüber benutzten zu dieser Zeit um die 2,3 Mrd. Internetnutzer weltweit dieses Telekommunikationssystem. Facebook und Google+ sind Plattformen für soziale Netze. Dieser Begriff taucht um 1970 in der Soziologie zur Beschreibung sozialer Interaktionen beliebigen Typs auf, wobei dort die Qualität sozialer Beziehungen eine entscheidende Rolle spielt. Facebook war 2004 erstmals zugänglich und verfügte Ende März 2012 nach eigenen Angaben über 125 Mrd. sogenannte Freundschaftsbeziehungen (m≈125·109) und über 901 Mio. aktive Nutzer (n≈901·106). Häufig werden bei der Darstellung von Graphen die Knoten durch Kreise und die Kanten jeweils durch eine Verbindungslinie zwischen je zwei dieser Kreise veranschaulicht. Zweifelsohne kann selbst diese einfache Darstellungsweise bei entsprechend umfangreichen Graphen wie den oben genannten zum Problem werden. Das Zeichnen von Graphen ist deshalb mittlerweile ein Themengebiet der Informatik, in dem Algorithmen entwickelt werden, die Graphen auf dem Bildschirm oder auf Papier unter Verwendung unterschiedlicher Layout-Strategien darstellen können. Diese Visualisierung von Netzen, insbesondere des Internet, ist als Mittel der Analyse und des Verständnisses ihrer Strukturen ein relevantes Gebiet. Zwei durch eine Kante verbundene Konten werden Nachbarn genannt. Die Anzahl der Nachbarn eines Knotens bildet seinen Grad (Degree), der ein probates Maß für die Wichtigkeit des Knotens darstellt. Je größer sein Grad, desto wichtiger ist er, weil dann viele Verbindungen bei ihm als Endknoten zusammenlaufen oder ihn als Zwischenknoten durchlaufen. Bekanntlich verdankt die Graphentheorie ihre Entstehung dem von Leonard Euler, einem der bekanntesten und produktivsten Mathematiker, 1736 gelösten Problem, über die Königsberger Brücken einen sogenannten Eulerschen Weg zu finden, der jede Brücke als Kante eines Graphen genau einmal überquert. Ein schwierigeres Problem, alle Knoten genau einmal zu besuchen auf einem Hamiltonschen Weg, entspricht in Kommunikationsnetzen der Aufgabe alle Netzknoten z.B. mit einer Nachricht zu versorgen und dabei jeden Knoten nur einmal zu durchlaufen [16,27]. Der Abstand oder die Distanz zweier Knoten in einem Graphen ist die geringste Länge eines

Weges innerhalb dieses Graphen zwischen den genannten Knoten. Damit lässt sich auch der obige Nachbarschaftsbegiff auf Nachbarn höherer Ordnung, d.h. mit größerem Abstand, erweitern. Die Größe der Distanzen in einem Netz ist von fundamentaler Bedeutung, insbesondere für die Bewertung ihrer Leistungsfähigkeit. Bei der Zuverlässigkeitsbewertung ist eher der Zusammenhang von Bedeutung. Ein Graph heißt zusammenhängend, wenn er für jedes seiner Knotenpaare einen Weg enthält, der diese miteinander verbindet. Für Kommunikationsnetze bedeutet diese Konnektivität, dass jeder Knoten mit jedem anderen kommunizieren kann. Ein Graph ist k-knotenzusammenhängend, wenn er nach dem Entfernen von k-1 beliebigen Knoten immer noch zusammenhängt. Eine entsprechende Eigenschaft lässt sich auch bzgl. der Kanten definieren. Man spricht in diesem Zusammenhang auch von (k-1)-facher Fehlertoleranz und ein größeres k bedeutet höhere Netzzuverlässigkeit [15,17]. Ein weiteres Bewertungskriterium ist die Größe der Teilnetze, die beim Verlust des Gesamtzusammenhangs entstehen und Zusammenhangskomponenten genannt werden. Zusammenhangsprobleme gehören zu den bedeutsamsten Fragestellungen der Graphentheorie. Beispielsweise besagt ihr klassischer Satz von Menger, dass es zwischen allen Knotenpaaren eines k-knotenzusammenhängenden Graphen k knotendisjunkte Wege gibt. Solche redundanten und diversitären Wege erhöhen die Fähigkeit eines Netzes bei Teilausfällen ein möglichst hohes Maß an Funktionsfähigkeit aufrecht zu erhalten. Topologische Robustheit bedeutet Zuverlässigkeit im Sinne von Ausfallsicherheit und Widerstandsfähigkeit gegenüber Angriffen [14,45]. In der Graphentheorie wird ein Graph zu einem Netzwerk, wenn er eine zusätzliche Kantenbewertung besitzt. Diese kann z.B. die geographische Knotenentfernung, die Leitungskapazitäten bzw. -auslastungen oder die Flüsse quantifizieren [16]. Damit lassen sich dann u.a. aus dem Operations Research bekannte Optimierungsprobleme lösen wie die Suche nach einem Weg mit der geringsten geographischen Länge, der niedrigsten Auslastung oder der höchsten Übertragungskapazität. Solche Fragen sind beispielsweise auch im Zusammenhang mit der Wegewahl im Internet wichtig [29].

Reguläre Graphen Als Basisnetz (Backbone) bezeichnet man den verbindenden Kernbereich (Core) eines Telekommunikationsnetzes mit oft sehr hohen Datenübertragungsraten, der meist aus einem Glasfasernetz sowie satellitengestützten Kommunikationselementen besteht [15,27]. Da sich dort der Datenverkehr aller Endbenutzer bündelt, erfordert dieses Netz häufig besonders große Übertragungskapazitäten. Gleichzeitig sind besondere Vorkehrungen für eine hohe Zuverlässigkeit z.B. durch gewollte Redundanz notwendig, um bei Teilausfällen des Basisnetzes die Datenströme entsprechend umleiten und damit trotz Ausfällen ans Ziel bringen zu können. Hierzu werden häufig reguläre Topologien zugrunde gelegt, insbesondere Ringe. Überregionale Netzbetreiber haben meist eigene nationale, internationale oder gar interkontinentale Basisnetze, so dass es zahlreiche solcher Netze im Internet gibt. Besitzt jeder Knoten eines Graphen den Grad g, so bezeichnet man den Graphen als g-regulär. Jeder g-reguläre Graph ist trivialerweise g-1 kanten- bzw. knotenzusammenhängend und entsprechend fehlertolerant. Ein einfacher Ring ist ein Weg mit identischen Endknoten und 2-regulär, da jeder Knoten in der Runde einen rechten und einen linken Nachbarn erster Ordnung besitzt. Nachbarn zweiter Ordnung sind die jeweils übernächsten Knoten auf dem Ring. Verbindet man diese jeweils durch eine zusätzliche Kante mit dem ursprünglichen Knoten, so werden auch sie zu Nachbarn erster Ordnung. Verfährt man so reihum, dann erhält man eine 4-reguläre Ringstruktur mit Zopfmuster. Ringtopologien finden sich häufiger als vermutet in Teilen des Internet, nicht selten um zusätzliche Sehnen erweitert wie beispielsweise das Internet2-Basisnetz (Abilene) [44] oder das Deutsche Wissenschaftsnetz (WiN). Ein Ziel beim Ausbau des WiN als technische Plattform des Deutschen Forschungsnetzes und Teil des Internet ist eine hoch verfügbare physische Topologie des Kernnetzes durch eine geeignete Vermaschung. 1996 bestand es aus einem einzigen Ring von 10 Knoten mit zwei Sehnen und gegenwärtig aus mehreren, mehrfach miteinander verbundenen Ringen von ca. 50 Knoten mit Sehnen [1]. Dadurch sind die Knoten im Kernbereich stets durch mindestens zwei unabhängige Wege miteinander verbunden. Jedoch müssen dabei nicht nur die Wege, sondern auch ihre Übertragungskapazitäten entsprechend redundant ausgelegt sein. Die mittlere Distanz wächst in regulären Graphen bei gleichbleibendem Knotengrad linear mit zunehmender Knotenzahl. Demgegenüber wurden in größeren Netzen, z.B. auch in Internet-Graphen, häufig wesentlich kleinere Durchschnittdistanzen gemessen. Beispielsweise betrug sie im Graphen der Verbindungen zwischen Domänen mit 11.174 Knoten und 23.409 Kanten nur 3,6. Beim Nachrichtensofortversand mit mehr als 240 Mio. Teilnehmern wurde lediglich ein mittlerer Abstand von 6,6 ermittelt [24]. Im Jahre 2008 wurde eine Durchschnittsdistanz von 4,8 in einem Facebook-Graphen mit 10 Mio. Knoten und 408 Mio. Kanten gemessen und eine mittlere Distanz von 4,25 für Orkut mit 1,8 Mio. Knoten und 22 Mio. Kanten, einem hauptsächlich in Brasilien und Indien populären sozialen Online-Netzwerk [36]. In einem Facebook-Graphen von 2011 mit weltweit 721 Mio. Nutzern als Knoten und 69 Mrd. Freundschaftskanten fand man sogar nur eine mittlere Distanz von 4,74 [6]. Twitter-Graphen bestehen aus den Teilnehmern an Twitter als Knoten und dem Abonnieren der Nachrichten eines Teilnehmers durch einen anderen (Follower) als Kanten zwischen den beiden entsprechenden Knoten. 2010 wurde in diesem Graphen eine mittlere Distanz von 4,67 ermittelt, wobei mehr als 5,2 Mrd. Nachrichtenabonnements als Kanten berücksichtigt wurden [12]. In anderen Untersuchungen von Twitter-Graphen wurde

2009 eine Durchschnittsdistanz von 4,12 und 2010 lediglich noch 3,43 gemessen [7]. Eine Klasse von Graphen mit geringer Durchschnittsdistanz wird im folgenden Abschnitt vorgestellt.

Zufallsgraphen Die beiden Mathematiker Paul Erdös und Alfréd Rényi entwickelten um 1960 die Theorie zufälliger Graphen, die als einfaches und dabei sehr nützliches Modell für viele Anwendungen ggf. auch approximativ genutzt werden oder wie im nächsten Abschnitt als Basis zur Konstruktion anderer Graphen dienen [16,27,31]. Typische Beispiele sind u.a. frühe Internettopologien (Arpanet, CSNET) bzw. Topologien von Internet-Basisnetzen wie dem NSFNET [39]. Über die unmittelbare Anwendung auf spezielle reale Netze hinaus helfen sie als wesentlicher Bestandteil der Graphentheorie, die Welt der Netze insgesamt besser zu verstehen. In Zufallsgraphen sind je zwei beliebige Knoten unabhängig von allen anderen mit der Wahrscheinlichkeit p durch eine Kante unmittelbar miteinander verbunden. Die Programme [40,47] erzeugen Zufallsgraphen gemäß der Eingabe einer Knotenzahl sowie einer Kantenzahl oder der Wahrscheinlichkeit p und stellen sie graphisch dar. Die Zufallsexperimente zur Konstruktion von Zufallsgraphen werden Bernoulli-Prozesse genannt. Ein anschauliches Beispiel ist der Münzwurf mit n Spielern (Knoten). Jedes mögliche Duo von Spielern (Knotenpaaren, Kanten) wirft eine unfaire Münze, die mit Wahrscheinlichkeit p Zahl (Kante) oder mit Wahrscheinlichkeit 1-p Kopf (keine Kante) zeigt. Jeder Knoten eines Zufallsgraphen ist jeweils mit Wahrscheinlichkeit p mit einem der n-1 anderen Knoten durch eine Kante verbunden, damit hat er erwartungsgemäß p(n-1) Nachbarn. Der Knotengrad folgt also einer Binomialverteilung, die für n gegen Unendlich gegen eine Normalverteilung konvergiert. Im Gegensatz zum linearen Anstieg der Durchschnittsdistanz bei wachsender Knotenzahl und gleichbleibendem Knotengrad in regulären Graphen gibt es bei den Zufallsgraphen lediglich eine logarithmische Zunahme. Beispielsweise erhält man für einen Zufallsgraphen mit 7 Mrd. Knoten für die gegenwärtige Gesamtheit aller Erdbewohner mit angenommen je 100 Bekannten als Knotengrad p=1,43·10-8 und als Durchschnittsdistanz nur 4,92. Es gibt umfangreiche mathematische Untersuchungen zur Evolution von Zufallsgraphen. Für eine fest gewählte Funktion p=p(n) kann man untersuchen, wie sich die Wahrscheinlichkeit für das Vorhandensein einer Grapheneigenschaft verhält, wenn n gegen unendlich geht. Strebt diese Wahrscheinlichkeit gegen 1, so sagt man, dass fast alle Graphen diese Eigenschaft besitzen. Mit zunehmender Wahrscheinlichkeit p beginnend bei 0 gehen fast alle Zufallsgraphen von isolierten Knoten über zu immer reichhaltigeren Strukturen bis hin zu zusammenhängenden Graphen und letztendlich zum vollständigen Graphen für p=1. Der Übergang von isolierten Knoten oder kleinen zusammenhängenden Inseln zu einem insgesamt zusammenhängenden Graphen findet relativ plötzlich beim Schwellwert p=(log n)/n statt, der damit auch für die Zuverlässigkeit in Form der Zusammenhangswahrscheinlichkeit interessant ist. Wegen der Analogie zu physikalischen Phänomenen wie dem plötzlichen Übergang von Wasser zu Eis beim Gefrierpunkt spricht man auch bei Graphen von Phasenübergängen [14,16,27]. Zufallsgraphen ähneln den Graphen, die zur Zuverlässigkeitsbewertung benutzt werden. Dabei bedeutet p die Intakt- und 1-p die komplementäre Defektwahrscheinlichkeit von Systemkomponenten, die z.B. durch die Kanten repräsentiert werden. Meist wird die Zusammenhangswahrscheinlichkeit als Systemzuverlässigkeit definiert. Insbesondere in Kommunikationsnetzen bedeutet dies die Wahrscheinlichkeit dafür, dass alle Knoten miteinander verbunden sind und somit untereinander kommunizieren können. Aus Netzbenutzersicht interessiert häufig nur, dass lediglich eine ggf. anwendungsbezogene Teilmenge aller Netzknoten miteinander kommunizieren kann. Demgegenüber bezeichnet man die Wahrscheinlichkeit, dass eine vorgegebene Anzahl beliebiger Knoten miteinander verbunden ist als Resilienz [18,22,46].

Transitive Nachbarschaftsbeziehungen Im Jahr 1929 veröffentlichte der ungarische Autor Frigyes Karinthy eine Kurzgeschichte mit dem Titel Kettenglieder. Diese hatte die enge Verknüpfung der modernen Welt zum Gegenstand. Jeder könne zu jedem über eine Kette von höchstens fünf Bekannten eine Verbindung aufbauen. Der durch seine Experimente zur Gehorsamkeitsbereitschaft bekannte Psychologe Stanley Milgram führte in den 60er Jahren mit Hilfe von Kettenbriefen Untersuchungen zu Karinthys Überlegungen durch und fand durchschnittlich 6 Kanten und fünf Zwischenmittler als Knoten, welche die Briefe weitergeleitet hatten. Milgrams Ergebnis „Six Degrees of Separation“ war spektakulär, konnte aber zunächst auch bei nachfolgenden Experimenten wegen zu kleiner Stichproben nicht wissenschaftlich solide bewiesen werden. Erst später mit dem Aufkommen entsprechender technischer Kommunikationssysteme sowie der automatischen Durchforstung großer Datenbestände konnte dann das Phänomen in vielen Bereichen endgültig zweifelsfrei nachgewiesen werden. Der von Milgram geprägte Begriff „Small World“ bezog sich zunächst auf Graphen mit kleiner Durchschnittsdistanz. Später wurde dann meist auch zusätzlich ein großer Clusterkoeffizient gefordert. „Die Welt ist ein Dorf“ bedeutet also nicht nur, dass man andere über wenige Ecken kennt, sondern zusätzlich dass meine Bekannten sich untereinander ebenfalls kennen (Transitivität). Die entsprechende Wahrscheinlichkeit

erwies sich bei Untersuchungen realer Netze als sehr hoch. Der Soziologe und Physiker Duncan Watts und der Mathematiker Steven Strogatz stellten 1998 dieses Phänomen auf eine solide mathematische Grundlage in Form des Clusterkoeffizienten [27]. In Graphen ist ein Cluster eine Gruppe von Knoten, die stärker untereinander vernetzt ist als mit dem Rest des Graphen. Intern vollständig vermaschte Cluster heißen Cliquen und dieser Begriff wurde zuerst im Zusammenhang mit sozialen Netzen und später mit Verbindungen in Telekommunikationsnetzen verwendet. Mittlerweile sind Cluster und Cliquen ein grundlegendes Konzept der Graphentheorie. Der lokale Clusterkoeffizient eines Knotens vom Grad größer als 1 ist der Quotient aus der Anzahl der Kanten zwischen seinen Nachbarn und der Anzahl aller seiner Nachbarknotenpaare, also aller möglichen Kanten zwischen seinen Nachbarn. Man kann diese Größe auch interpretieren als die Wahrscheinlichkeit dafür, dass zwei Nachbarn eines Knotens ebenfalls Nachbarn voneinander sind. Für Knoten mit dem Grad 0 oder 1 setzt man sie gleich 0. Der globale oder mittlere Clusterkoeffizient eines Graphen ist der Durchschnitt der lokalen Clusterkoeffizienten aller seiner Knoten. Für Zufallsgraphen ist die Wahrscheinlichkeit, dass zwei beliebige Knoten Nachbarn sind, gleich p und damit ist dies trivialerweise der Erwartungswert beider Clusterkoeffizienten. Zufallsgraphen unterschätzen die Durchschnittsdistanz realer Netz meist, da sie keine Gruppenbildung berücksichtigen, bei der gruppeninterne Kanten nicht so stark zur Verkürzung der Distanzen innerhalb des Gesamtnetzes beitragen. Bei der Vermessung realer Netze aus unterschiedlichen Bereichen - darunter auch dem Internet - zeigt sich, dass sie neben einem geringen Durchschnittsabstand auch einen signifikant höheren Clusterkoeffizienten als Zufallsgraphen besitzen. Z.B. wurde in einer Messung an 3888 Knoten auf Router-Ebene mit dem mittleren Knotengrad 2,57 eine Durchschnittsdistanz von 12,15 gemessen, während diese für einen entsprechenden Zufallsgraphen nur 8,75 beträgt. Eine Vermessung des WWW aus 325.729 Knoten mit Durchschnittsgrad 4,51 ergab einen mittleren Abstand von 11,2 gegenüber demjenigen von 8,32 beim Zufallsgraphen. In einem Facebook-Graphen wurde ein mittlerer lokaler Clusterkoeffizient von 0,14 gemessen, d.h. 14% aller benachbarten Freundespaare eines durchschnittlichen Nutzers sind ebenfalls in diesem Sinne miteinander befreundet [33]. Bei den Messungen zum Nachrichtensofortversand wurde ein mittlerer Clusterkoeffizient von 0,137 gemessen [24]. Im gleichen Jahr 2008 wurde ein Clusterkoeffizient von 0,164 für einen Facebook-Graphen sowie 0,171 für Orkut ermittelt [36]. Um zusätzlich zu einer geringen Durchschnittsdistanz wie bei den Zufallsgraphen auch einen größeren Clusterkoeffizienten zu gewährleisten, kann man auf folgende von den Zufallsgraphen inspirierte Weise in einen regulären Graphen zufällig Unregelmäßigkeiten einbauen: Man löse bei den Knoten des ursprünglichen Graphen, z.B. einem 4-regulären Ring, mit Wahrscheinlichkeit p jeweils ein Kantenende und verbinde es neu mit einem anderen Knoten, der bisher kein Nachbar war (Rewiring). Entsprechende Applets zur Simulation dieses Vorgangs und zur Darstellung der entsprechenden Graphen liefern [41,42].

Skaleninvariante Gradverteilung Während die bisher betrachteten Klassen von Graphen mit einer relativ gleichmäßigen Knotenverteilung eher einem Autobahnnetz ähneln, hat das Internet auf einigen Betrachtungsebenen eine Struktur wie Flugliniennetze [8]. Auch dort heißen die besonders häufig angeflogenen und wichtigen Knoten wie im Internet Naben (Hubs). Der Flughafen Frankfurt am Main ist beispielsweise eines der weltweit bedeutendsten Luftverkehrsdrehkreuze und zählt zu den „Top-Ten Mega-Hubs“ der Welt. Ebenfalls in Frankfurt ist der Deutsche Internet-Austauschknoten (German Commercial Internet Exchange, DE-CIX [2]) als eine Nabe des Internet beheimatet. Gegenüber solchen relativ wenigen sehr großen Flughäfen bzw. Austauschknoten gibt es eine sehr große Menge kleiner Flughäfen bzw. Internet-Knoten mit nur wenigen Verbindungen zu anderen. Da die meisten Verbindungen eines derartigen Graphen in den Naben zusammenlaufen bzw. sie passieren, sind sie von zentraler Bedeutung für den Zusammenhalt des Netzes und den Informationsfluss. Hierfür wurden über den Knotengrad hinaus mehrere sogenannte Zentralitätsmaße eingeführt [27]. Dieses Phänomen der Naben lässt sich mit den bisher vorgestellten Klassen von Graphen nicht modellieren, doch vor mehr als 100 Jahren wurde bereits die Lösung gefunden: Im Jahre 1897 nämlich publizierte der Ingenieur, Ökonom und Soziologe Vilfredo Pareto ein berühmtes Beispiel für die nach ihm benannte Pareto-Verteilung: Die Anzahl der Personen, welche innerhalb eines Landes ein Einkommen g besitzen, ist näherungsweise proportional zu g-c , wobei der Parameter c länderübergreifend etwa 2,5 beträgt. Diese nichtlineare Abhängigkeit wird auch als Potenzgesetz bezeichnet und bedeutet anschaulich, dass man durch die Veränderung der Skala mit der g gemessen wird, z.B. durch Streckung um eine Konstante, die wesentlichen Eigenschaften der Funktion nicht verändert. Deshalb heißen solche Funktionen skaleninvariant (scale-free) und für viele untersuchte reale Netze gilt der obige Ausdruck als skaleninvariante Funktion des Knotengrads g. Generell sind alle Polynome skaleninvariant im Gegensatz zu exponentiellen Beziehungen. Kenneth Wilson schuf um 1970 die mathematischen Grundlagen der Skaleninvarianz, die eng verwandt ist mit der Selbstähnlichkeit, und erhielt 1982 den Nobelpreis für Physik für seine Theorie über kritische Phänomene bei der Phasenumwandlung und deren Skalentheorie. 30 Jahre später wurde unabhängig von Informatikern und Physikern bei Messungen entdeckt, dass die Verteilungsdichte des Knotengrads im Internet sowohl auf der Router- und der Domänenebene als auch im WWW skaleninvariant ist. Solche Graphen besitzen kleine Durch-

schnittsdistanzen und große Clusterkoeffizienten, haben also Dorfcharakter. Insbesondere bei skaleninvarianten Graphen mit Exponenten c zwischen 2 und 3 wächst die Durchschnittsdistanz nicht mehr mit dem einfachen, sondern nur noch mit dem doppelten Logarithmus der Knotenzahl (ultra small). Bei zahlreichen Messungen im Internet wurden sowohl auf der Routerebene als auch auf der Ebene zwischen den Domänen durchweg skaleninvariante Knotengraddichten mit Exponenten zwischen 1,9 und 2,4 gefunden [3,27]. Bei Webgraphen unterscheidet man häufig ein- und ausgehende Kanten gemäß der Richtung von Webverweisen. Auch hier wurden durchweg skaleninvariante Knotengraddichten gefunden mit Exponenten von 2,1 bis 2,7 [27]. Soziale Online-Netze wurden bereits ebenfalls untersucht und dort fand man ebenso skaleninvariante Gradverteilungsdichten mit ähnlichen Exponenten [19,26,30]. In [36] wurde 2008 als Exponent der Knotengraddichte sowohl für den Facebook- als auch für den Orkut-Graphen ein Wert von 2,5 ermittelt. Beim Wachstum vieler realer Netze verbinden sich neue Knoten eher mit denen, die schon einen relativ hohen Knotengrad besitzen. Diese Verknüpfungsvorliebe (Preferential Attachment) führt zur Entstehung von Naben [8,27]. Das Phänomen ist unter dem Namen Vorteilsakkumulation oder Matthäus-Effekt („Wer hat, dem wird gegeben.“) ein Grundgesetz der Soziologie und wurde häufig u.a. in Koautorschafts- und Zitationsgraphen nachgewiesen. Der Physiker und Biologe Réka Albert und der Physiker Albert-László Barabási schlugen daraufhin folgendes Konstruktionsverfahren für solche Graphen vor [3]: Einem relativ kleinen Startgraphen wird in jedem Schritt ein weiterer Knoten hinzugefügt und mit immer der gleichen vorgegebenen Anzahl bereits vorhandener Knoten verbunden. Letztere werden gemäß der Wahrscheinlichkeit ausgesucht, die proportional zu ihrem Knotengrad ist. So entstehen Netze, deren Knotengraddichte skaleninvariant ist mit einem Exponenten, der gegen den Wert 3 strebt, und es bilden sich Naben [3,27]. Mit den Programmen aus [42,47] kann man entsprechende Graphen generieren und darstellen. Mittlerweile gibt es eine ganze Reihe von Modellen für Netze mit skaleninvarianter Knotengraddichte [13,27,31]. Auch Charakteristika von Datenflüssen im Internet können auf verschiedenen Aggregierungsebenen durch skaleninvariante Verteilungen approximiert werden. Dieser Graphentyp ist in der realen Welt offensichtlich allgegenwärtig und somit ist auch seine Zuverlässigkeit besonders interessant. Einer Untersuchung des Internet auf der Zwischendomänenebene mit 6.209 Knoten, 12.200 Kanten und Durchschnittsdistanz 3,4 ergab, dass die Distanzen im Netz bei simulierten zufälligen Ausfällen von bis zu 2,5% der Knoten unverändert blieben. Durch gezieltes Entfernen der gleichen Menge von Knoten, jedoch derjenigen mit dem höchsten Knotengrad, erhöhte sich die Durchschnittsdistanz auf das Dreifache. Bei einem simulierten Netz aus je 10.000 Knoten sowie 20.000 Kanten blieb bei bis zu 5% zufällig ausgefallener Knoten die Durchschnittsdistanz konstant bei 4. Die gezielte Entfernung der Knoten mit den höchsten Knotengraden ergab einen linearen Anstieg von 4 bis auf 11 bei bis zu 5% entfernter Knoten. Nach der zufälligen Entfernung von 80% der Netzknoten einer simulierten Internettopologie blieben die restlichen 20% miteinander verbunden. Generell nimmt bei zufälligen Knotenausfällen die Größe der maximalen Zusammenhangskomponente nach und nach ab, indem sich lediglich einzelne Knoten abspalten. Es bleibt bis zu einer sehr großen Menge entfernter Knoten eine relativ große Zusammenhangskomponente erhalten und sorgt so für topologische Stabilität gegenüber zufälligen Ausfällen. Beim gezielten Entfernen der Knoten mit dem höchsten Knotengrad zerfällt das Netz allerdings schon bei einem Anteil von 18% in mehrere isolierte Teilgraphen [3,28]. Als Fazit aus den Messergebnissen und den Simulationen ergibt sich einerseits eine topologische Robustheit des Internet gegenüber zufälligen Ausfällen, andererseits eine Achillesferse: Sein Graph kann durch gezieltes Ausschalten seiner Naben relativ schnell separiert werden. Zufällige Ausfälle treffen meist unbedeutende Knoten, bleiben also für das Gesamtnetz relativ unbedeutend, während Ausfälle der am stärksten vernetzten Knoten auch schon in geringer Anzahl sehr große Schäden verursachen. Diese plausiblen und empirisch belegten Aussagen lassen sich auch analytisch für Graphen mit skaleninvarianter Gradverteilung nachweisen [14,27].

Schlussbemerkung Es wurde ein Einblick in die umfangreiche Netzforschung bzgl. des Internet gegeben. Dazu wurden die vier entsprechenden Graphenmodelle und ihre Eigenschaften betrachtet, insbesondere die jeweilige Knotengradverteilung, die Durchschnittsdistanz und die Clusterkoeffizienten, sowie entsprechende Messergebnisse angeführt. Beachtung wurde dabei auch Aspekten der Zuverlässigkeit geschenkt. Untersuchungen realer Internetzusammenbrüche haben gezeigt, dass in manchen Fällen über das Internet hinaus Abhängigkeiten zwischen verschiedenartigen Netzen eine Fehlerfortpflanzung und somit weiträumige Ausfälle bewirkt haben. Z.B. legte der Ausfall eines Kraftwerks aufgrund mangelnder Stromversorgung einen Teil des Internet lahm. Dadurch fehlten zur Steuerung anderer Kraftwerke wichtige Informationen und sie gingen ebenfalls vom Netz, wodurch wiederum weitere Internetkomponenten mangels Stromversorgung ausfielen usw. [11]. Darüber hinaus könnten aus Mangel an Strom oder Information zusätzlich u.a. Transportsysteme ausfallen, sodass ggf. auch keine Ersatzteile sowie Reparatur- oder Rettungsmannschaften zu den Einsatzorten transportiert werden könnten. Modelliert werden solche Szenarien als Graph aus Graphen. Dabei sind ganze reale Netze wie das Stromnetz oder das Internet jeweils nur ein Knoten eines übergeordneten Graphen, dessen Kanten jeweils eine Abhängigkeit zweier solcher Knoten bzw. Netze untereinander symbolisieren. Ferner kann eine Kantenbewertung den Anteil der Komponenten angeben, die in einem realen Netz vom entsprechenden anderen abhängen.

So können durch analytische Untersuchungen Ergebnisse zur Robustheit des Gesamtnetzes abgeleitet werden [20]. Hierbei wird das Internet als einer der wichtigsten Bestandteile einer Gesamtinfrastruktur angesehen, die vielleicht nicht mehr nur für hochindustrialisierte Gesellschaften lebenswichtig ist und mit Graphen in vielfältiger Weise und Hinsicht modelliert werden kann. Hinweise: In der englischsprachigen Literatur werden öfter Milliarden als „Billion“ und die Durchschnittsdistanz als „Diameter“ bezeichnet. Fast alle im folgenden Verzeichnis aufgeführten Arbeiten sind im WWW zu finden. Pajek, Slowenisch "Spinne", bietet u.a. ein Programm zur Generierung, Visualisierung und Analyse großer Netze inkl. vieler Beispielnetze sowie umfangreiche Literatur und Präsentationen zum Thema Netze [47].

Quellenverzeichnis: 1. 2. 3. 4.

Adler H., Eitner P., Piger S., X-WiN 2011, DFN Mitteilungen 81, Nov. 2011 Ager B., Chatzis N., Feldmann A., Sarra N., Uhlig S., Willinger W., Anatomy of a Large Europ. IXP, SIGCOMM, 2012 Albert R., Barabási A., Statistical Mechanics of Complex Networks, Review Modern Physics 74, 47, 2002 Alderson D., Catching the “Network Science” Bug: Insight and Opportunity for the Operations Researcher, Oper. Res. 56, 2, 2008 5. Atzmüller M., Mining Social Media, Informatik-Spektrum 35, 2, 2012 6. Backstrom L., Boldi P, Rosa M., Ugander J., Vigna S., Four Degrees of Separation, WebSci, 2012 7. Bakhsdandeh R., Samadi M., Azimifar Z., Schaeffer J., Degrees of Separation in Social Networks, Proc. 4th Intern Symp. on Combinatorial Search, SoCS, 2011 8. Barabási A., Bonabeau E., Skalenfreie Netze, Spektrum der Wissenschaft, 2004 9. Barabási A.L., Gulbahce N., Loscalzo J., Network Medicine: A Network-based Approach to Human Disease, Nature Review Genetics 12, 2011 10. Bornholdt S., Schuster H. (eds.), Handbook of Graphs and Networks – From the Genome to the Internet, Weinheim, 2003 11. Buldyrev S., Parshani R., Paul G., Eugene H., Stanley H., Havlin S., Catastrophic Cascade of Failures in Interdependent Networks, Nature 464, 2010 12. Cheng A., Six Degrees of Separation, Twitter Style, 2010 www.sysomos.com/insidetwitter/sixdegrees 13. Clegg R., Di Caitano-Gilfedder C., Zhou S., A Critical Look at Power Law Modelling of the Internet, Computer Communications 33, 3, 2009 14. Cohen R., Havlin S., Complex Networks: Structure, Robustness and Function, Cambridge Univ. Press, 2010 15. Deng W., Karaliopoulos M., Mühlbauer W., Zhu P., Lu X., Plattner B., k-Fault Tolerance of the Internet AS graph, Computer Networks 55, 2011 16. Diestel R., Graphentheorie, 4. Aufl., Springer, Berlin, 2010 17. Erlebach T., Moonen L., Spieksma F., Vukadinovic D., Connectivity Measures for Internet Topologies, on the Level of Autonomous Systems, Oper. Res. 57, 4, 2009 18. Farley T., Colbourn C., Multiterminal Measures for Network Reliability and Resilience, 7th Intern. Workshop on the Design of Reliable Communication Networks, DRCN, 2009 19. Fu F., Liu L., Wang L., Empirical Analysis on Online Social Networks in the Age of Web 2.0, Physica A 287, 2008 20. Gao J., Buldyrev S., Havlin S., Stanley H., Robustness of a Network of Networks, Phys. Rev. Letters 107, 195701, 2011 21. Gjoka M., Kurant M., Butts C., Markopoulou A., Walking in Facebook: A Case Study of unbiased Sampling of OSNs, Proc. 29th Conf. on Information Communications, 2010 22. Heidtmann K., Zuverlässigkeit technischer Systeme, Teubner, Stuttgart/Leipzig, 1997 23. Kocarev L., In V., Network Science: A New Paradigm Shift, IEEE Network 24, 6, 2010 24. Leskovec J., Horvitz E., Planetary Scale Views on a Large Instant Messaging Network, Proc. WWW, Beijing, 2008 25. Lewis T.G., Network Science: Theory and Applications, Wiley, Hoboken, 2009 26. Mislove A., Marcon M., Gummadi K., Druschel P., Bhattacharjee B., Measurement and Analysis of Online Social Networks, Internet Measurement Conf., IMC, 2007 27. Newman M.E.J., Networks – An Introduction, Oxford Univ. Press, 2010 28. Park S., Khrabrov A., Pennock D., Lawrence S., Lee Giles C., Ungar L., Static and Dynamic Analysis of the Internet's Susceptibility to Faults and Attacks, INFOCOM, 2003 29. Pu C., Zhou S., Wang K., Zhang Y., Pei W., Efficient and Robust Routing on Scale-Free Networks, Physica A 391, 2012 30. Schiöberg D. u. H., Schmid S., Schneider F., Uhlig S., Feldmann A., Tracing the Birth of an OSN: Social Graph and Profile Analysis of Google+, WebSci, 2012 31. Scholtes I., Tessone C., Organic Design of Massively Distributed Systems: A Complex Networks Perspective, Informatik-Spektrum 35, 2, 2012 32. Stegbauer C., Häußling R., Handbuch der Netzwerkforschung, Verlag für Sozialwissenschaften, 2010 33. Ugander J., Karrer B., Backstrom L., Marlow C., The Anatomy of the Facebook Social Graph, ACM Computing Research Repository, CoRR, 2011 34. Vivar J., Banks D., Models for Networks: A Cross-Disciplinary Science, WIREs Computational Statistics 4, 1, 2012 35. Willinger W., Alderson D., Doyle J., Mathematics and the Internet: A Source of Enormous Confusion and Great Potential, Notice of the ACM 56, 5, 2009 36. Wilson C., Boe B., Sala A., Puttaswamy P., Zhao B., User Interactions in Social Networks and their Implications, Proc. 4th ACM Eur. Conf. on Comp. Systems, 2009 37. Wright A., Web Science meets Network Science, Com. ACM 54, 5, 2011 38. Zhou S., Power Law Modelling of the Internet, In: Complex Sciences, LNICST 5, Part 2, 2009

39. An Atlas of Cyberspaces http://personalpages.manchester.ac.uk/staff/m.dodge/cybergeography/atlas 40. http://www.macs.hw.ac.uk/~pdw/topology/Networks.html 41. http://www.cs.gmu.edu/~astavrou/random.html ... /smallworld.html 42. http://ccl.northwestern.edu/netlogo/models 43. The Cooperative Association for Internet Data Analysis (CAIDA), www.caida.org 44. http://www.internet2.edu/pubs/200502-IS-AN.pdf 45. ResiliNets, https://wiki.ittc.ku.edu/resilinets/Main_Page 46. Resilience/Reliability of Network Topologies, Applet zur Berechnung der Resilienz/Zuverlässigkeit, http://www.informatik.uni-hamburg.de/TKRN/world/tools 47. Pajek-Projekt, http://vlado.fmf.uni-lj.si/pub/networks/pajek

Abstract: Starting as a small and plain pioneering network for a long time the Internet’s physical as well as logical topologies expanded rapidly later on. While the network of computers as vertices and of their interconnections as edges grew more and more, applications used this infrastructure to establish numerous complex virtual networks like the WWW and Social Online-Networks. On every layer of his topological hierarchy the Internet can be depicted by graph models and thus be investigated mathematically. This provides interesting insights into his structural properties, which affect his capability. Therefore, this paper presents four appropriate types of graphs, which have an influence on the modeling and evaluation of the Internet: regular, random, small-world and scale-free. Their characteristic properties and related quantities were considered like the degree of vertices, the mean distance, the clustercoefficients, and the topological robustness meaning the resistance to random failures and targeted attacks. The paper refers to analytical, simulative and many empirical investigations of the Internet. In addition, it gives references to simulation programs as well as to maps and graphical representations of Internet graphs.