Comment fonctionne le calcul du PageRank ?

Pour comprendre plus en détail le fonctionnement du moteur de recherche de Google, nous allons étudier dans ce cours le calcul du PageRank pour comprendre la manière dont il se diffuse sur le web.

Temps de lecture estimé : 9 minutes

Le PageRank avec le Surfeur aléatoire

Présentation formule

Comme nous l’avons vu dans le cours sur l’histoire des moteurs de recherche, Google s’est démarqué de ses concurrents dès son lancement en utilisant le PageRank, comme une mesure de popularité d’un contenu, pour classer ses résultats de recherche.

Voici comment Larry Page décrivait cet algorithme en 1998 dans « The PageRank Citation Ranking: Bringing Order to the Web » :

Si un internaute, que Larry Page nomme le « Surfeur aléatoire », démarre une session sur le web en prenant une URL au hasard et qu’il navigue sur le web en cliquant sur tous les liens qu’il trouve sur les pages web qu’il visite, puis qu’à un moment il décide d’arrêter sa session et qu’il reproduit ce processus encore et encore… Alors on pourra constater au bout d’un certain nombre de sessions que la proportion de fois où il passe sur une page finit par se stabiliser. C’est cette proportion de fois où il passe par la page qui donne le score de PageRank de cette page.

Et voilà la formule du PageRank du surfeur aléatoire : PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

À présent, décortiquons cette formule :

  • PR(A) : Cette formule calcul le PageRank de la page « A ».
  • (1-d) : Le paramètre « d » est un facteur d’amortissement compris entre 0 et 1 qui a pour effet de stopper la session du surfeur aléatoire. Larry Page indique que celui-ci est généralement égal à 0,85. Autrement dit, dans 15% du temps le surfeur « s’ennuie » et décide d’arrêter sa session pour en démarrer une nouvelle.
  • + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn)) : Il s’agit du calcul de la somme du PageRank en prenant en considération la probabilité de transmission du PageRank où « Tn » correspond aux pages contenant un lien ciblant « A » et où « C » représente le nombre de liens de la page « Tn » ne ciblant pas la page « A ».
  • L’itération de cette formule finira par stabiliser la valeur du PageRank de la page A.
  • Le PageRank de chaque page est compris entre 0 et 1 et la somme des PageRank de toutes les pages du web est égale à 1.

Exemples de diffusion du PageRank

Imaginons que l’index de Google ne contiendrait que 4 pages web : A, B, C et D.

Ces pages se diviseraient donc la quantité initiale du PageRank, ce qui nous donnerait donc :

  • La page A aurait 0,25 de PageRank
  • La page B aurait 0,25 de PageRank
  • La page C aurait 0,25 de PageRank
  • La page D aurait 0,25 de PageRank

Nous pouvons remarquer ici que plus vous avez de pages à votre disposition, plus vous disposez de PageRank initialement.

Si la page A contient 2 liens ciblant les pages B et C et qu’on garde la valeur du facteur d’amortissement présenté par Larry Page pour le surfeur aléatoire, alors la page A distribuerait 85% de sont PageRank au page B et C et les 15% restants seraient rétribués à toutes les pages.

Distribution du PageRank avec 4 pages web
Distribution du PageRank avec 4 pages web

En itérant la formule du PageRank jusqu’à ce que le PageRank des pages web se stabilise, nous obtiendrions ces valeurs tronquées au centième :

  • La page A aurait 0,20 de PageRank
  • La page B aurait 0,29 de PageRank
  • La page C aurait 0,29 de PageRank
  • La page D aurait 0,20 de PageRank

Comme nous pouvons le voir, la page D qui n’a ni fait de lien ni reçu de lien a vu son PageRank baisser de 0,25 à 0,20.

Un site qui ne créerait pas de nouvelles pages et qui n’obtiendrait pas de nouveaux liens, alors que le web continue d’évoluer, finirait par voir son PageRank diminué.

Maintenant, imaginons que le lien de la page A vers la page B soit en « nofollow ».

En 2019, Google a annoncé que les attributs des liens (sponsored, ugc et nofollow) sont désormais considérés comme des indications parmi d’autres signaux, pour analyser et utiliser ces liens à bon escient.

Cela pourrait avoir pour effet de redistribuer à toutes les pages de l’index du moteur de recherche, le PageRank qui aurait dû être transmis à la page B.

Ce qui nous donnerait ces PageRank tronquées au centième :

  • La page A aurait 0,22 de PageRank
  • La page B aurait 0,22 de PageRank
  • La page C aurait 0,32 de PageRank
  • La page D aurait 0,22 de PageRank

Mais cette époque où la quantité de liens entrants primait sur la qualité est révolue, car depuis d’autres « surfeurs » plus représentatifs du comportement d’un internaute sont apparus.

Le PageRank thématique

Comme nous l’avons vu lors des exemples de diffusion avec du surfeur aléatoire, la quantité initiale de PageRank se répartit entre toutes les pages du web.

Par conséquent si un grand nombre de pages traitent d’une même thématique, alors cette thématique disposera d’une quantité initiale de PageRank importante et si ces pages web crée des liens entres elles, certaines pages pourraient obtenir un PageRank important.

À l’inverse si une autre thématique compte peu de pages web, alors la probabilité pour que certaines de ces pages obtiennent un PageRank élevé est faible.

Le problème qui se crée avec ce phénomène c’est que si une requête est ambiguë est peu se référer à différentes thématiques, alors la thématique qui a la plus grande quantité de PageRank initialement peut monopoliser les premières pages de résultats.

Pour résoudre ce problème, de nombreuses approches ont été proposées, mais c’est en 2003 que Taher H. Haveliwala réussit à trouver un algorithme industrialisable avec le PageRank Thématique qui va rapidement être mis en place chez Google.

Cette méthode consiste à segmenter un besoin informationnel en 16 thématiques (les 16 thématiques au plus haut niveau d’open directory project, l’annuaire de dmoz) et d’attribuer à chaque contenu un PageRank pour chacune des thématiques.

Ainsi une page qui précédemment avait une seule valeur de PageRank, a à présent un vecteur de PageRank ayant pour attribut 16 valeurs, une pour chaque thématique.

Concernant l’attribution des thématiques à une requête, Google analyse les thématiques qui intéressent les internautes lorsqu’ils effectuent une requête pour ensuite pondérer l’importance des différentes thématiques pour cette requête.

Google se sert également des associations des mots entre eux dans les contenus indexés, pour comprendre la thématique de la requête.

Ainsi l’importance des thématiques de la requête peut faire émerger des pages web provenant de thématique détenant une faible quantité de PageRank initial.

Cette nouvelle méthode de calcul a permis d’améliorer la qualité des résultats de recherche perçue par les utilisateurs de 85,51%, sans augmenter significativement les coûts de calcules du PageRank.

La transmission de PageRank thématique entre les contenus est influencée par l’indice de continuité sémantique, aussi appelé glissement sémantique, des contenus qui sont liés entre eux, d’où l’importance des cocons sémantique.

Autrement dit, il s’agit de la probabilité pour qu’un internaute s’intéresse à un contenu lié lorsqu’il consulte une page.

Le PageRank avec le surfeur raisonnable

En 2012, Google dépose un brevet sur le surfeur raisonnable.

Le concept est de pondérer l’importance des liens dans le parcours du surfeur raisonnable, selon l’emplacement des liens.

Ainsi il pourrait potentiellement y avoir plus de chance qu’un internaute clique sur un lien dans le contenu de la page, plutôt que sur un lien dans le pied de page par exemple.

Pondération de l'importance des liens pour le surfeur raisonnable.
Exemples fictifs d’une pondération de l’importance des liens pour le surfeur raisonnable.

Comme pour la transmission du PageRank thématique, la pondération des liens selon leur emplacement peut varier selon de nombreux signaux.

Conclusion sur le calcul du PageRank

La valeur du PageRank d’un contenu est proportionnelle à la quantité, mais aussi, et surtout, à la qualité des liens ciblant ce contenu.

En effet, il vaut mieux avoir des dizaines de backlinks de bonne qualité que des centaines de liens entrants de mauvaise qualité.


Auteur :
Dernière mise à jour : 03/01/2022

Vous êtes ici : Référencime > Formation SEO gratuite en ligne pour Google > Comment fonctionne un moteur de recherche ? > Comment fonctionne le calcul du PageRank ?

Principales sources d’informations

Menu de la formation 🧗

Formation SEO gratuite

Sous-chapitres
L’histoire des moteurs de recherche
Comment fonctionne le calcul du PageRank ?
Comment fonctionne un algorithme de learning to rank ?
Comment fonctionne l’algorithme du transition rank ?
Comment fonctionne l’algorithme Google Penguin ?
Comment fonctionne l’algorithme Google Panda ?
Comment fonctionne le duplicate content ?
Comment fonctionne l’algorithme BERT ?
Comment fonctionne le Knowledge Graph de Google ?

Chapitres
Qu’est-ce que le SEO ?
Comment fonctionne un moteur de recherche ?
Les optimisations pour les moteurs de recherche
Créer une stratégie SEO pour Google

◎ À lire
◈ En cours de lecture
◉ Lecture terminée

5/5 - (5 votes)