Pour comprendre plus en détail comment fonctionne le moteur de recherche de Google, nous allons étudier dans ce cours le calcul du PageRank pour mieux appréhender la manière dont Google perçoit la popularité d’une URL.
Temps de lecture estimé : 7 minutes
Le PageRank avec le Surfeur aléatoire
Présentation formule
Comme nous l’avons vu dans le cours sur l’histoire des moteurs de recherche, Google s’est démarqué de ses concurrents dès son lancement en utilisant le PageRank, pour classer ses résultats de recherche.
Voici comment Larry Page décrivait cet algorithme en 1998 dans « The PageRank Citation Ranking: Bringing Order to the Web » :
Si un internaute, que Larry Page nomme le « Surfeur aléatoire », démarre une session sur le web en prenant une URL au hasard et qu’il navigue sur le web en cliquant sur tous les liens qu’il trouve sur les pages web qu’il visite, puis qu’à un moment il décide d’arrêter sa session et qu’il reproduit ce processus encore et encore… Alors on pourra constater au bout d’un certain nombre de sessions que la proportion de fois où il passe sur une page finit par se stabiliser.
C’est cette proportion de fois où il passe par la page qui donne le score de PageRank de cette page.
Et voilà la formule du PageRank du surfeur aléatoire : PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
À présent, décortiquons cette formule :
- PR(A) : Cette formule calcul le PageRank de la page « A ».
- (1-d) : Le paramètre « d » est un facteur d’amortissement compris entre 0 et 1 qui a pour effet de stopper la session du surfeur aléatoire. Larry Page indique que celui-ci est généralement égal à 0,85. Autrement dit, dans 15% du temps le surfeur « s’ennuie » et décide d’arrêter sa session pour en démarrer une nouvelle.
- + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn)) : Il s’agit du calcul de la somme du PageRank en prenant en considération la probabilité de transmission du PageRank où « Tn » correspond aux pages contenant un lien ciblant « A » et où « C » représente le nombre de liens de la page « Tn » ne ciblant pas la page « A ».
- L’itération de cette formule finira par stabiliser la valeur du PageRank de la page A.
- Le PageRank de chaque page est compris entre 0 et 1 et la somme des PageRank de toutes les pages du web est égale à 1.
Exemples de diffusion du PageRank
Imaginons que l’index de Google ne contiendrait que 4 pages web : A, B, C et D.
Ces pages se diviseraient alors la quantité initiale du PageRank, ce qui nous donnerait :
- La page A aurait 0,25 de PageRank
- La page B aurait 0,25 de PageRank
- La page C aurait 0,25 de PageRank
- La page D aurait 0,25 de PageRank
Nous pouvons remarquer ici que plus vous avez de pages à votre disposition, plus vous disposez de PageRank initialement.
Si la page A contient 2 liens ciblant les pages B et C et qu’on garde la valeur du facteur d’amortissement présenté par Larry Page pour le surfeur aléatoire, alors la page A distribuerait 85% de sont PageRank au page B et C et les 15% restants seraient rétribués à toutes les pages.
En itérant la formule du PageRank jusqu’à ce que le PageRank des pages web se stabilise, nous obtiendrions ces valeurs tronquées au centième :
- La page A aurait 0,20 de PageRank
- La page B aurait 0,29 de PageRank
- La page C aurait 0,29 de PageRank
- La page D aurait 0,20 de PageRank
Comme nous pouvons le voir, la page D qui n’a ni fait de lien ni reçu de lien a vu son PageRank baisser de 0,25 à 0,20.
Autrement dit, un site qui ne créerait pas de nouvelles pages et qui n’obtiendrait pas de nouveaux liens entrants, alors que le web continue d’évoluer, finirait par voir son PageRank diminuer.
Maintenant, imaginons que le lien de la page A vers la page B soit en « nofollow ».
En 2019, Google a annoncé que les attributs des liens (sponsored, ugc et nofollow) sont désormais considérés comme des indications parmi d’autres signaux, pour analyser et utiliser ces liens à bon escient.
Cela pourrait avoir pour effet de redistribuer à toutes les pages de l’index du moteur de recherche, le PageRank qui aurait dû être transmis à la page B.
Ce qui nous donnerait ces valeurs tronquées au centième :
- La page A aurait 0,22 de PageRank
- La page B aurait 0,22 de PageRank
- La page C aurait 0,32 de PageRank
- La page D aurait 0,22 de PageRank
Mais cette époque où la quantité de liens entrants primait sur la qualité est révolue, car depuis d’autres « surfeurs » plus représentatifs du comportement d’un internaute sont apparus.
Le PageRank thématique
Comme nous l’avons vu avec les exemples de diffusion du pagerank avec le surfeur aléatoire : la quantité initiale de PageRank se répartit entre toutes les pages du web.
Par conséquent, si un grand nombre de pages traitent d’une même thématique, alors cette thématique disposera d’une quantité initiale de PageRank importante et si ces pages web ont des liens entres elles, certaines pages pourraient obtenir un PageRank important.
À l’inverse si une autre thématique compte peu de pages web, alors la probabilité pour que certaines de ces pages obtiennent un PageRank élevé est faible.
Le problème qui se crée avec ce phénomène, c’est que si une requête est ambiguë est peut se référer à différentes thématiques, alors la thématique qui a la plus grande quantité de PageRank initialement peut monopoliser les premières pages de résultats.
Pour résoudre ce problème, de nombreuses approches ont été proposées, mais c’est en 2003 que Taher H. Haveliwala réussit à trouver un algorithme industrialisable avec le PageRank Thématique qui va rapidement être mis en place chez Google.
Cette méthode consiste à segmenter un besoin informationnel en 16 thématiques (les 16 thématiques au plus haut niveau d’open directory project, l’annuaire de dmoz) et d’attribuer à chaque contenu un PageRank pour chacune des thématiques.
Ainsi une page qui précédemment avait une seule valeur de PageRank, a à présent un vecteur de PageRank ayant pour attribut 16 valeurs, une pour chaque thématique.
Concernant l’attribution des thématiques à une requête, Google analyse les thématiques qui intéressent les internautes lorsqu’ils effectuent une requête pour ensuite pondérer l’importance des différentes thématiques pour cette requête.
Google se sert également des associations des mots entre eux dans les contenus indexés, pour comprendre la thématique de la requête.
Ainsi l’importance des thématiques de la requête peut faire émerger des pages web provenant de thématique détenant une faible quantité de PageRank initial.
Cette nouvelle méthode de calcul a permis d’améliorer la qualité des résultats de recherche perçue par les utilisateurs de 85,51%, sans augmenter significativement les coûts de calcules du PageRank.
La transmission de PageRank thématique entre les contenus est influencée par l’indice de continuité sémantique, aussi appelé glissement sémantique, des contenus qui sont liés entre eux.
Autrement dit, il s’agit de la probabilité pour qu’un internaute s’intéresse à un contenu lié lorsqu’il consulte une page.
Le PageRank avec le surfeur raisonnable
En 2012, Google dépose un brevet sur le surfeur raisonnable.
Le concept est de pondérer l’importance des liens dans le parcours du surfeur raisonnable, selon l’emplacement des liens.
Ainsi il pourrait potentiellement y avoir plus de chance qu’un internaute clique sur un lien dans le contenu de la page, plutôt que sur un lien dans le pied de page par exemple.
Comme pour la transmission du PageRank thématique, la pondération des liens selon leur emplacement peut varier selon de nombreux signaux.
Conclusion sur le calcul du PageRank
La valeur du PageRank d’un contenu est proportionnelle à la quantité, mais aussi, et surtout, à la qualité des liens ciblant ce contenu.
En effet, il vaut mieux avoir des dizaines de backlinks de bonne qualité que des centaines de liens entrants de mauvaise qualité.
Auteur : Thomas Viennet - Freelance SEO
Dernière mise à jour : 30 juillet 2024
Principales sources d’informations
- The PageRank Citation Ranking: Bringing Order to the Web (29/01/1998) par Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd.
- Topic-Sensitive PageRank (09/07/2003) par Taher H. Haveliwala Stanford University
- Ranking documents based on user behavior and/or feature data (14/02/2012) par Jeffrey A Dean, Corin Anderson et Alexis Battle.
- Evolving « nofollow » – new ways to identify the nature of links (10/09/2019) par Danny Sullivan et Gary Illyes.
- Formaseo Niveau 2 : Algorithmie des moteurs de recherche (Décembre 2020) par Guillaume et Sylvain Peyronnet, experts incontournables du domaine, fondateurs de yourtext.guru et babbar.tech.