Comment fonctionne un moteur de recherche ?

Pour expliquer et comprendre le fonctionnement d’un moteur de recherche tel que Google, nous allons découper les différentes tâches d’un moteur de recherche.

Temps de lecture estimé : 10 minutes

Parcourir les contenus web

La première étape consiste à découvrir tous les contenus qui sont disponibles sur le web afin d’avoir d’une part une vision d’ensemble du web et d’autre part pouvoir répondre à autant de besoins informationnels que possible.

Pour cela les moteurs de recherche utilisent des « robots d’indexation« , aussi appelés « crawlers » ou encore « bots ». Les principaux bots étant ceux de Google, à savoir les « GoogleBot » ainsi que ceux de Microsoft Bing : « BingBot ». Mais sachez que chaque moteur dispose de son propre crawler :

  • BaiduSpider, pour baidu
  • Yandexbot, pour yandex
  • Duckduckbot, pour duckduckgo
  • Slurp, pour yahoo!
  • etc.

Ces robots d’indexation ont donc pour mission de parcourir le web de lien en lien pour mettre à jour et enrichir la base de données du moteur de recherche.

Les Googlebots explorent 20 milliards de sites web par jour.

Source : https://www.abondance.com/20130517-12616-google-crawle-20-milliards-de-sites-web-chaque-jour.html

Pour réaliser cette mission, les crawlers sont envoyés au hasard sur des pages web déjà connues du moteur de recherche. Une fois arrivé sur une page il analyse son contenu et liste les liens qui y sont présents.

L’un des points importants est que pour réduire les coûts d’indexation, les moteurs de recherche n’appliquent pas les mêmes traitements à toutes les pages web. Et c’est le crawler, lors de cette première analyse du contenu, qui décide du processus de traitement par lequel passera cette page web.

Pour décider de la chaîne algorithmique à appliquer à une page, le crawler se sert d’une multitude de signaux qui lui indiquent si la page doit être considérée comme du spam ou autre.

D’autre part, c’est également lors du crawl qu’un contenu peut être détecté comme un contenu dupliqué, ce qui permet au moteur de recherche d’éviter d’indexer un contenu sans valeur ajoutée.

Une fois que le robot a terminé d’analyser le contenu d’une page, il envoi au moteur de recherche le code source de la page web ainsi que toutes les ressources liés à celle-ci (fichiers CSS, JS etc.), puis il poursuit sa navigation avec une nouvelle URL.

Précisons ici que les moteurs de recherche peuvent utiliser toutes sortent de méthodes pour découvrir de nouvelles URLs.

Par exemple, Google peut détecter une nouvelle page grâce à son navigateur web « Chrome », ou bien l’intégration d’un tag (Google Analytics, Google Ads, Google Adsens…) sur un site web.

Notons également que tous les crawlers d’un même moteur de recherche ne sont pas les mêmes. Ceux-ci sont paramétrés avec des variables et n’interagiront pas de la façon avec les sites web. De plus, tous les crawlers n’ont pas le même objectif, certains vont analyser la version mobile d’autres la desktop, d’autres vont récupérer les ressources, d’autres les images …

Indexer les contenus crawlés

Lorsque le moteur de recherche a récupéré toutes les informations en lien avec un contenu (code source, ressources externes, etc.). Il effectue une phase rendering qui consiste à générer la page web telle qu’un internaute la verrait en utilisant la dernière version de son navigateur (« evergreen »).

Puis en fonction d’une multitude de signaux, il décide d’indexer ou non le contenu en question.

L’index des pages web de Google contient des centaines de milliards de pages Web.

Source : https://www.google.com/intl/fr/search/howsearchworks/crawling-indexing/

Si Google rangeait toutes les pages dans un seul index et recherchait parmi celles-ci, celles qui sont pertinentes pour répondre à l’intention de recherche : cela prendrait un temps qui n’est pas raisonnable et par la même occasion engendrerait des coûts eux aussi déraisonnable.

Afin de répondre rapidement aux requêtes des internautes, les moteurs de recherche doivent alors découper leur index en une multitude de sous index plus ou moins fins. Ce type de structure s’appelle l’index inversé.

Pour cela, ils peuvent par exemple ranger toutes les pages web derrière tous les mots des différentes langues, ou encore par thématique, ou par catégorie de sites web (e-commerce, informationnel, …) etc.

Pour réaliser ce type de tâche Google a notamment inventé le patron d’architecture « MapReduce » qui permet de découper l’index en blocs pour effectuer des calcules sur ceux-ci et ensuite le regrouper pour constituer l’index.

Analyser les contenus indexés

En tant qu’humain nous pouvons comprendre le sujet d’un texte facilement. Mais pour que les moteurs de recherche comprennent de quoi parle un texte, ils doivent se fier à une multitude de signaux.

Par le passé, les moteurs de recherche se servaient essentiellement du modèle vectoriel de Gerard Salton et des améliorations qui en ont découlé.

Plus récemment, les moteurs de recherche utilisent les vecteurs de contexte pour effectuer une analyse plus fine du contenu.

La dernière avancée dans la compréhension d’un texte est l’algorithme BERT qui permet, entre autres, de lever l’ambiguïté de langage et d’apprécier la cohérence d’un contenu.

Analyser la popularité des contenus

Une fois qu’un moteur de recherche dispose d’une liste de pages web qu’il pense être pertinentes pour répondre à une requête, il doit réussir à les classer avant de les proposer à ses utilisateurs.

Pour cela, Google calcule la probabilité de chance pour qu’un internaute soit en train de consulter un contenu et plus la probabilité qu’un grand nombre d’internautes consultent un contenu, plus celui-ci est considérée comme étant populaire.

Chez Google, la formule permettant de mesurer la popularité d’un contenu s’appelle PageRank du nom de son inventeur : Larry Page.

Analyser la requête de l’utilisateur

Bien comprendre la requête d’un utilisateur et plus précisément son besoin informationnel est un enjeu déterminant pour lui apporter des résultats pertinents.

Malheureusement les requêtes des utilisateurs peuvent comporter de nombreux problèmes :

  • Très peu de mots utilisés
  • Mauvaise orthographe 
  • Méconnaissance de leur véritable besoin informationnel 
  • etc.

C’est pourquoi les moteurs de recherche doivent faire un travail sur les requêtes des utilisateurs avant de leur fournir une première liste de résultats.

Pour cela, les moteurs de recherche vont faire une expansion et/ou une reformulation de la requête de l’utilisateur afin d’apporter des réponses qui correspondent au besoin informationnel.

L’un des premiers algorithmes permettant de reformuler la requête pour améliorer la pertinence est celui de Rocchio qui date de 1971.

Celui-ci permet de créer une extension du modèle vectoriel de la requête initiale de l’utilisateur à partir de termes présents dans les contenus des résultats pertinents.

Source : https://www.neurones.espci.fr/Theses_PS/Stricker_M/CHAP2.pdf page 14 « La formule de Rocchio »

D’autres méthodes d’expansion et reformulation des requêtes ont vu le jour entre temps. Google a notamment déposé en 2012 un brevet sur l’évaluation des termes de substitution.

Il est également important de rappeler que ce n’est pas au moteur de recherche de décider de la qualité d’un résultat pour répondre à un besoin informationnel. Cette appréciation des résultats revient à l’humain.

C’est pourquoi les moteurs de recherche vont prendre en considération le comportement de l’utilisateur face à la liste des résultats proposés, pour mieux catégoriser l’intention de recherche de sa requête (Est-ce que l’utilisateur revient sur la liste des résultats après avoir cliqué sur l’un des liens ? Est-ce qu’il reformule sa question ? S’il y a plusieurs thématiques de résultats proposées, laquelle il choisit ? etc.).

Par conséquent, ce sont les pages de résultats qui vont satisfaire le besoin informationnel, qui vont permettre d’améliorer la catégorisation de la requête par rétropropagation de la pertinence grâce à l’ajustement des calcules des réseaux de neurones.

Filtrer les mauvais résultats

Google utilise de nombreux algorithmes pour lutter contre les techniques de manipulation de ses algorithmes, aussi appelé « spamdexing », et notamment suite à la mise à jour « caffeine » de la structuration de son index en juin 2010.

Certains algorithmes sont considérés comme des mises à jour (Core Update) de Google, car ils n’ont pas pour objectif premier de lutter contre des techniques de sur-optimisation. Ils visent simplement à améliorer la qualité des résultats de recherche et par conséquent, ils font baisser dans le classement certaines techniques blacks hat, ou du moins les mauvais contenus.

Mais d’autres algorithmes sont conçus spécifiquement pour lutter contre la sur-optimisation en ciblant les caractéristiques de ces techniques (Manipulation du PageRank, fermes de contenu, cloaking, etc). Ils sont alors considérés comme des filtres qui nettoient l’index de Google.

Pour expliquer simplement leur fonctionnement : lorsque Google juge de la qualité / pertinence d’un contenu, il attribue une notation à ce contenu qui peut être positif ou nul. Tant dit que les filtres vont quant à eux attribuer une note négative en fonction des signaux détectés de spamdexing.

Créer le classement

Maintenant que le moteur de recherche a crawlé le web, indexé les contenus, analysé les contenus, analysé leur popularité et filtrer les contenus qui cherchent à fausser les résultats : il lui reste une dernière étape consistant à améliorer la pertinence des résultats.

D’une part, il va utiliser tous les signaux dont il dispose sur la requête (importance géographique, intention d’achat, recherche d’information, thématique de la requête, etc.) et pondérer ces signaux pour personnaliser le classement en fonction de l’intention de recherche détectée.

Cela lui permet par exemple d’afficher dans ses résultats de recherche le local pack, des images, des articles en lien avec l’actualité, etc.

D’autre part, Google va continuer de peaufiner l’ordre d’affichage de ses résultats de recherche en fonction des interactions entre les internautes et les résultats proposés.

Pour cela Google va notamment utiliser un algorithme de machine learning qui a pour objectif d’ajuster la pondération des signaux de classement au sein du réseau de neurones en fonction des interactions des humains avec les résultats classement.


Auteur :
Dernière mise à jour : 05/01/2022

Vous êtes ici : Référencime > Formation SEO gratuite en ligne > Comment fonctionne un moteur de recherche ?

Principales sources d’informations

Menu de la formation 🧗

Formation SEO gratuite

Sous-chapitres :
L’histoire des moteurs de recherche
Comment fonctionne le calcul du PageRank ?
Comment fonctionne un algorithme de learning to rank ?
Comment fonctionne l’algorithme du transition rank ?
Comment fonctionne l’algorithme Google Penguin ?
Comment fonctionne l’algorithme Google Panda ?
Comment fonctionne le duplicate content ?
Comment fonctionne l’algorithme BERT ?
Comment fonctionne le Knowledge Graph de Google ?

Chapitres :
Qu’est-ce que le SEO ?
Comment fonctionne un moteur de recherche ?
Les optimisations pour les moteurs de recherche
Créer une stratégie SEO pérenne et pertinente

◎ À lire
◈ En cours de lecture
◉ Lecture terminée

5/5 - (9 votes)