Der PageRank Algorithmus wird in The PageRank Citation Ranking: Bringing Order to the Web. eingeführt und ist das wohl bekannteste Rankingkriterium von Google. Der Algorithmus ist nach dem Google Mitgründer Larry Page benannt und liefert ein Maß für die Relevanz von Webdokumenten basierend auf ihrer Reputation im Internet. Diese Reputation wird auf Basis der eingehenden Hyperlinks berechnet. Der Grundgedanke hinter diesem Prinzip der Bewertung ist die Betrachtung von Links als Empfehlungen und ist in etwa vergleichbar mit der Benutzung von Zitaten in der Literatur beziehungsweise in wissenschaftlichen Ausarbeitungen.
Formel zu Berechnung des PageRanks
Der PageRank ist ein konkreter Wert, der nach der folgenden Formel berechnet wird:
Der PageRank ist demnach ein Wert zwischen 0 und 1. Da der Algorithmus rekursiver Natur ist, wird der tatsächliche PageRank in mehreren Iterationen ermittelt. Der Dämpfungsfaktor d stellt sicher, dass Webseiten, die in einem Kreislauf aufeinander verlinken, keinen unendlichen PageRank bekommen. Für d wird ein Wert von ca. 0,85 empfohlen.
Das Random Surfer Modell
Eine weitere Betrachtung, die bei dem PageRank zum Tragen kommt, ist der sogenannte „Random Surfer“. Dieser Begriff bezeichnet einen User, der sich zufällig durch das Internet bewegt (zwischen verschiedenen Webseiten navigiert) und dabei von einer Seite zur nächsten kommt, indem er den Links auf einer Webseite folgt. Ab einer gewissen Stelle bricht der User den Vorgang ab und beginnt ihn auf einer zufällig gewählten anderen Webseite erneut. Bei diesem Modell entspricht die Wahrscheinlichkeit, dass ein User eine Webseite aufruft in etwa dem PageRank dieser Seite. In The PageRank Citation Ranking: Bringing Order to the Web. wird das PageRank Prinzip simplifizierend wie in der folgenden Abbildung. Die angezeigten Zahlen entsprechen dabei dem aktuellen PageRank einer Seite (Zahl steht innerhalb der Seite) beziehungsweise dem vererbten PageRank (Zahl steht am Pfeil).
Das Reasonable Surfer Modell
Das PageRank Prinzip wird mit sehr hoher Wahrscheinlichkeit auch heut zu Tage noch eingesetzt. Allerdings nicht mehr exakt in der oben beschriebenen, ursprünglichen Form. Man geht davon aus, dass heute eher das sogenannte „Reasonable Surfer“ Modell, das in dem US Patent Ranking documents based on user behavior and/or feature data beschrieben ist, bei der Berechnung des PageRanks eingesetzt wird. Der große Unterschied in diesem Modell liegt darin, dass der navigierende User nun nicht mehr durch Zufall auf einen Link klickt, sondern dass das Verhalten des Users von bestimmten Faktoren abhängt. So ist es zum Beispiel wahrscheinlicher, dass ein User einem Link folgt, der einen thematischen Bezug zu der Webseite hat, auf der er sich gerade befindet. Weiterhin spielt die Platzierung des Links eine Rolle. Ein Link im Hauptinhalt (dem sogenannten Content) einer Seite wird mit großer Wahrscheinlichkeit häufiger angeklickt als ein Link im Footer. Die folgende Abbildung verdeutlicht die unterschiedliche Gewichtung der Links bei der Vererbung von PageRank. Maximal kann in diesem Beispiel ein Link den Wert 1 besitzen.
Das nofollow-Attribut
Eine weitere Modifikation bezüglich des PageRanks ist die Einführung des nofollow Attributs. Dieses Attribut wurde von Google im Januar 2005 eingeführt um der zunehmenden Menge an Spam-Kommentaren in Blogs sowie dem aufkommenden Verkauf von Backlinks Einhalt zu gebieten. Dadurch sollte es beispielsweise für Webmaster möglich sein, einen Werbelink auf ihrer Seite zu platzieren ohne dabei den Google Algorithmus zu manipulieren. Links, die das nofollow tragen, vererben weder Ankertext noch PageRank.
Die Zukunft des PageRanks
Bereits Ende 2009 wurde die Anzeige des PageRanks aus den Google Webmaster Tools entfernt und von der Google Mitarbeiterin Susan Moskwa unter http://www.google.com/support/forum/p/Webmasters/thread?tid=6a1d6250e26e9e48&hl=en wie folgt kommentiert:
We’ve been telling people for a long time that they shouldn’t focus on PageRank so much; many site owners seem to think it’s the most important metric for them to track, which is simply not true. We removed it because we felt it was silly to tell people not to think about it, but then to show them the data, implying that they should look at it. 🙂
Der PageRank: Zusammenfassung
Der PageRank war zu den Anfangszeiten von Google das Zugpferd des Algorithmus. Heutzutage misst man ihm jedoch keine so große Bedeutung mehr zu. Wichtig ist an dieser Stelle auch, dass zwischen dem sichtbaren PageRank (der z.B. mit der Google Toolbar angezeigt werden kann) und dem intern verwendeten PageRank unterscheiden muss. Der erstere wird nur in großen Zeitabständen aktualisiert (, das letzte Mal im Januar 2011 – allerdings mit den Daten von Juni 2010. Mehr dazu unter PageRank Backdate 2011) und somit nur eine Momentaufnahme darstellt, während der intern verwendete PageRank laufend aktualisiert wird.
Zum Schluss noch einmal die wichtigsten Fakten zum Thema PageRank in Kürze:
- Der PageRank ist ein Maß für den Verlinkungsgrad einer Webseite im Internet
- Der „sichtbare“ PageRank stellt nur eine Momentaufnahme dar
- Es ist sehr wahrscheinlich, dass der PageRank inzwischen nach dem Resonable Surfer statt dem Random Surfer Modell arbeitet
- Der Google-Algorithmus besteht aus über 200 Faktoren und der PageRank ist nur einer davon, dessen Einfluss in den letzten Jahren stetig abgenommen hat
0 comments on “PageRank”