Die Bestimmung weiteren Seeds kann hier übrigens recht clever gelöst werden; hat man nämlich nicht alle vorhandenen Sites zur Verfügung (wie es bei mir und der Wikipedia der Fall war), behilft man sich mit folgendem Vorgehen: von jeder durchsuchten Site wird nicht nur der erste Link genommen und weiterverfolgt, sondern es werden auch sämtliche weiteren Links der Site zumindest herausgesucht und gespeichert; danach wird der erste Link weiterverfolgt. Terminiert die aktuelle Suche, sprich, wurde das Ziel oder ein Kreis gefunden, so kann aus den gespeicherten Sites ein neuer Seed herausgesucht werden und das Verfahren beginnt von vorn. Das Heraussuchen von weiteren möglichen Wegen und Speicherung zur späteren Verwendung nennt man Breitensuche. Für unseren Webcrawler kommt demzufolge eine Kombination aus Tiefen– und Breitensuche zur Anwendung.
Und was kommt nun am Ende heraus, wenn man das beschriebene Verfahren auf die Wikipedia loslässt? Auf Grund von Bandbreiteneinschränkungen musste ich mich bei meiner Untersuchung auf 10.000 betrachtete Artikel beschränken, aber ich denke, dass sie dennoch eine recht gute Grundlage zur Beantwortung der initial gestellten Frage liefern.
Trägt man in einem Diagramm die Pfadlänge gegen die Anzahl der Pfade (also Wege von einem beliebigen Artikel zum Wissenschafts-Artikel) mit dieser Länge auf, so ergibt sich das folgende Bild mit der darunterliegenden Datentabelle:
Pfadlänge | Anzahl der Pfade |
---|---|
1 | 43 |
2 | 200 |
3 | 297 |
4 | 363 |
5 | 467 |
6 | 454 |
7 | 474 |
8 | 464 |
9 | 622 |
10 | 713 |
11 | 600 |
12 | 309 |
13 | 208 |
14 | 256 |
15 | 389 |
16 | 145 |
17 | 114 |
18 | 116 |
19 | 118 |
20 | 126 |
21 | 62 |
22 | 24 |
23 | 11 |
24 | 6 |
25 | 2 |
26 | 3 |
27 | 2 |
28 | 1 |
Für die Anzahl der Kreise lässt sich ebenso eine Datentabelle angeben. Ein Diagramm lohnt sich hier nicht, da es überraschenderweise nur wenig verschiedene Kreis-Größen gibt; es fällt vor allem auf, dass die Mehrzahl der Kreise die Größe 2 hat, sprich, zwei Artikel gegenseitig aufeinander verweisen. Die Kreis-Größe 1 ist technisch bedingt: einige Artikel verweisen als erstes (und meist auch einziges) auf sich selbst. Die folgenden Daten konnte ich bestimmen:
Kreis-Größe | Anzahl Kreise |
---|---|
1 | 62 |
2 | 1689 |
3 | 54 |
7 | 428 |
15 | 613 |
Insgesamt ergeben sich damit bei 10.000 untersuchten Artikeln 6589 Artikel, die einen Pfad zum Wissenschaftsartikel besitzen und 2846 Artikel, die in einem Kreis enden.*
Daraus ergibt sich ein Verhältnis von ungefähr 2,3 zu Gunsten der gültigen Pfade oder einfach gesagt: für jeden Artikel, der am Ende in einen Kreis führt, existieren 2.3 Artikel, die einen Pfad zum Wissenschaftsartikel besitzen. Die Behauptung, dass am Ende alles zur Wissenschaft (und damit zur Philosophie) führt, lässt sich damit zwar nicht guten Gewissens bestätigen, aber immerhin kann man sagen, dass ungefähr 70% aller Artikel in der Wikipedia über ihren ersten Link im Text einen Bezug zur Wissenschaft haben. Das Gespann “Philosophie – Wissenschaft” bildet übrigens einen Kreis der Größe 5 – Wissenschaft verweist also am Ende sogar auf sich selbst.
Wenn das mal nicht für die Wissenschaft spricht!
*Für alle die, die nachgerechnet haben: ja, die Summe aus Pfaden und Kreisen ergibt nicht ganz 10.000. Das hat technische Gründe, da einige verlinkte Artikel nicht korrekt geladen werden konnten.
Kommentare (7)