Skip to content →

Der PageRank-Algorithmus

Zur Festlegung verschiedener Reihenfolgen und Rangordnungen existieren diverse Algorithmen, um die Gegebenheiten zu berechnen und ein aussagekräftiges Endergebnis abzuliefern. Beispiele hierfür sind EigenTrust oder der Page-Rank-Algorithmus. Der PageRank-Algorithmus, entwickelt von den Google-Gründern Larry Page und Sergei Brin, diente der populären Suchmaschine ursprünglich dazu, die Suchergebnisse für die Nutzer in eine sinnvolle Reihenfolge zu bringen. Hierzu dient als Gewichtung die Anzahl der Verlinkungen, die eine Webpage aufzuweisen hat. Der PageRank-Algorithmus brachte also die Webseiten, die ein Nutzer mit Google finden und aufrufen kann, in eine gewichtete Reihenfolge und ermöglicht so eine Abstufung der Suchergebnisse unter Berücksichtigung der Linkpopularität der jeweiligen Webseite. Kurzgesagt: Google sortierte unter Verwendung des PageRank-Algorithmus die angezeigten Webseiten nach der Anzahl ihrer Verlinkungen von anderen Webseiten aus. Doch wie funktioniert der Algorithmus und welche mathematischen Aspekte stecken dahinter? Dieser Artikel beschäftigt sich mit der Konstruktion des PageRank-Algorithmus und beleuchtet die technischen Hintergründe, es wird also mathematisch!

Wie funktioniert der Algorithmus?

Das Prinzip haben wir euch bereits in der Einleitung erläutert. Doch was sich zunächst im Endergebnis recht einfach anhören mag, bedarf einer komplexen mathematischen Formel, um in der Realität zu funktionieren. Laut dem Algorithmus besitzt jede Seite ein eigenes Gewicht, den PageRank. Je mehr Seiten auf eine Seite verweisen, umso höher fällt das Gewicht der selbigen aus. Dieses Gewicht wird als PRi bezeichnet, wobei iin diesem Fall für die Seite selbst steht. PRilässt sich aus den Gewichten PRjberechnen, wobei jdie auf iverlinkenden Seiten definiert. J verlinkt dabei wiederum auf cj, diese Größe bildet die Anzahl der verschiedenen Seiten, auf welche PRj anteilig verteilt wird. Die mathematische Formel, die sich anhand dieser Größen für den PageRank-Algorithmus ergibt, lautet

. Dabei steht n für die gesamte Anzahl der Seiten und d bildet einen sogenannten Dämpfungsfaktor zwischen 0 und 1. Bei diesem Dämpfungsfaktor wird ein Teil des Gewichts, die Anzahl 1 – d, jeder Seite abgezogen und gleichmäßig auf alle Seiten, die vom Algorithmus erfasst werden, verteilt. Das geschieht, damit das Gewicht sich nicht auf Seiten verteilt, die nicht auf eine andere Seite verlinken.

Das Random Surfer Modell und das Rational Surfer Modell

Das Random Surfer Modell ist eine Alternative zur Interpretation des PageRank-Algorithmus, bei welchem der PageRank auf 1 auf normiert wird und die Wahrscheinlichkeit angenommen wird, dass sich ein sogenannter zufälliger Surfer auf der Seite existiert. Dieser Surfer zieht durch das Internet und wählt dabei mit der Wahrscheinlichkeit d einen zufälligen Link aus den Links der aktuellen Seite aus. Hierbei wird eine beliebig neue Serie bei einer Wahrscheinlichkeit von 1-d ausgewählt. Das Rational Surfer Modell wurde von Google im Jahre 2010 eingerichtet und gilt als Weiterentwicklung zum Random Surfer Modell, auch bekannt als Zufallssurfermodell. Bei diesem Modell spielen empirische Daten eine zentrale Rolle, denn die Bedeutung eines Links wird nach der Platzierung unterschieden und dabei anhand erhobener Messwerte gewichtet. Dabei liegt das Ziel darin, diejenigen Links mit einem stärkeren Gewicht zu belegen, welche von einem sogenannten rationalen Surfer und einer größeren Wahrscheinlichkeit aufgerufen werden. Dieses Modell soll dazu dienen, dem Kauf von Links und damit der Manipulation entgegenzuwirken.