Optimisation SEO du crawl des moteurs de recherche

Ce cours vous aidera à maîtriser cette étape clé qu’est l’indexation d’un site web.

L’indexation d’un site web, consiste à ajouter à la base de données d’un moteur de recherche les pages du site web en question.

Afin d’indexer un site web, vous pouvez soit patienter que votre site soit détecté par les moteurs de recherche, soit demander à être indexé par celui-ci.

Temps de lecture estimé : 7 minutes

Sommaire afficher

Faciliter l’indexation

Sitemap

Le sitemap est au format XML et contient l’ensemble des l’URL que l’on souhaite voir indexé par un moteur de recherche. Ce qui implique que toutes les URL doivent remplir ces critères :

Renvoyer un code HTTP 200
Ne pas être canonicalisées
Ne pas être redirigé
Ne pas être en 4XX
Crawlables et indexables

Une fois créé ce fichier peut être placé où vous le souhaitez dans l’arborescence de votre site et vous pouvez le soumettre via Google Search Console et indiquer son emplacement depuis le robots.txt comme ceci :

Sitemap: url-du-sitemap

Pour chaque entrée du fichier XML vous retrouvez ces données :

<loc> URL
<lastmod> date dernière modification
priority et changefreq : mais ces informations n’influencent pas Google.

Un fichier sitemap peut contenir jusqu’à 50 000 URL, mais il est possible de créer plusieurs fichiers sitemap et de les imbriquer entre eux.

Robots.txt

Ce fichier contient tout les règles que doivent suivre les robots lorsqu’ils crawlent votre site (ce qu’ils ont le droit oui ou non de crawler).

Fil RSS

À l’instar du sitemap ce fichier contient toutes les URL de votre site et peut faciliter la découverte de nouvelles pages pour les moteurs de recherche.

Fréquence d’indexation

On ne peut pas indiquer de fréquence à googlebot c’est lui qui décide.

La fréquence à laquelle un robot d’indexation passe sur une URL dépend de plusieurs critères tels que :

La régularité de mise à jour du contenu de l’URL
La visibilité de l’URL dans ses résultats de recherche
Le PageRank de l’URL

Comprenez bien ici qu’il faut raisonner à l’échelle d’une URL et non d’un site dans sa globalité.

Ainsi un site qui publie régulièrement de nouveaux contenus sur sa page d’accueil, comme par exemple un site d’actualités, verra sa page d’accueil régulièrement exploré par un robot d’indexation. Tant dit qu’une page qui serait rarement mise à jour verra rarement les robots passer.

Critères de mise à jour de l’index

Pour qu’un robot décide de mettre à jour la version d’une page, la mise à jour de celle-ci doit remplir certains critères.

Par exemple une page qui afficherait l’heure de la journée, ne serait pas considérée comme une mise à jour suffisante. De même pour une mise à jour du pied de page d’un site qui serait présent sur toutes les pages du site ne serait là non plus pas considéré comme une mise à jour du contenu de chaque page.

Vérifier l’indexation

Lors de l’indexation d’un site, des problèmes peuvent survenir (incompatibilité avec le JS, version de la page mobile différente de la version desktop, ressources bloquées …).

Vérifier ce que Google a réussi à indexer est primordial pour être sûr que votre contenu a correctement été pris en compte.

Avec Google Search Console

Depuis la Search Console vous pouvez visualiser la date de dernière exploration de vos pages web ainsi que le code source récupéré par le Googlebot pour être sûr qu’il n’y a pas eu de problème lors du crawl.

Avec la commande cache:

Si vous n’avez pas accès à la propriété Search Console, vous pouvez afficher le fichier enregistré en cache pas le moteur.

Pour cela le plus simple est d’exécuter la requête « cache:URL ».

Vous verrez alors en haut de l’écran la date de dernière indexation de cette page et vous aurez la possibilité d’afficher uniquement le contenu textuel de façon à vérifier que tout a bien été indexé correctement.

Avec la commande site:

Il peut arrive que le webmaster ait demandé à ne pas archive la page. Pour vérifier si l’URL est indexée, vous pouvez alors simplement taper la commande « site:URL ».

Si l’URL ressort comme résultat c’est donc que Google la connait est l’ajoutée à son index.

Cette requête peut également vous permettre de connaître le nombre (approximatif) d’URL indexé du site en question.

Vous pouvez également vous utiliser l’opérateur « – » pour éventuellement soustraire un sous domaine du domaine que vous analysez.

Par exemple : site:google.com vous donne ces résultats :

Et pour retirer le sous-domain fonts.google.com, vous pouvez utiliser la requête site:google.com -site:fonts.google.com

Cela fonctionne évidement aussi pour retirer par exemple les « www ».

Demander une Indexation manuellement

Les 2 principaux moteurs de recherche Google et Bing mettent à disposition des webmasters des outils leur permettant de suivre et contrôler l’indexation de leur site :

Ces outils vous permettent (en autres…) de demander une indexation prioritaire d’une page :

Vous pouvez également leur fournir vos sitemaps et flux RSS, pour faciliter la transmission de l’information d’une nouvelle page aux moteurs de recherche. Sachez toutefois que si vous utilisez un CMS populaire tel que WordPress ou autres, il y a de fortes chances pour qu’il se charge nativement de transmettre les nouveaux contenus aux moteurs de recherche.

Interdire l’indexation

Utiliser le fichier robots.txt

Pour interdire le crawl d’une page web, vous pouvez créer un fichier robots.txt dans le dossier racine de votre site et y indiquer les règles que doivent suivre les robots d’indexation.

Par exemple pour interdire le crawl d’un dossier à tous les robots, voici le code à y insérer :

user-agent: *
disallow: /dossier-interdit-aux-robots/

Même si la directive disallow interdit à Google d’indexer le contenu d’une page en la crawlant, il pourra toutefois indexer l’URL de la page et l’afficher dans les résultats de recherche sans extrait.
Source : https://developers.google.com/search/docs/advanced/robots/robots_txt?hl=fr#disallow

Une fois créé, vous pouvez tester votre fichier robots.txt avec l’outil proposé par Google.

Attention à ne pas pas interdire les ressources CSS et JS pour utilise à Google pour la phase de rendering.

Utiliser la balise meta robots

Pour bloquer l’indexation d’une page, vous pouvez ajouter dans la section <head> de chacune de vos pages web, l’instruction noindex grâce à une balise meta destinée aux robots.

Par exemple pour interdir l’indexation à tous les robots, voici le code à utiliser :

<meta name="robots" content="noindex">

Ce code s’adresse à tous les robots et leur donne l’instruction de ne pas indexer cette URL.

Si vous avez créé un fichier robots.txt qui interdit le crawl de la page où vous avez ajouté l’instruction noindex, alors les moteurs de recherche ne pourront pas la lire et elle sera donc ignorée par ceux-ci.
Source : https://developers.google.com/search/docs/advanced/crawling/block-indexing?hl=fr

Vous pouvez également demander à :

Interdire la mise en cache
Interdire de suivre les liens présent dans le contenu

Par exemple voici une instruction qui autorise l’indexation, mais donne l’indication de ne pas suivre les liens et de ne pas archiver la page :

<meta name="robots" content="index,nofollow,noarchive" />

Utiliser l’en-tête HTTP X-Robots-Tag

Dans une d’un fichier qui ne serait pas en HTML, vous pouvez utiliser l’en-tête HTTP X-Robots-Tag à configurer dans le fichier .htaccess.

Grâce à cela lorsqu’un robot demandera à votre serveur une URL, celui-ci lui renverra aussi l’indication de ne pas indexer le fichier.

Par exemple, pour empêcher l’indexation des fichiers PDF voici le code à y insérer :

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex"
</Files>

À noter également qu’ils existent d’autres instructions d’indexation et d’affichage valides.

Désindexer un contenu

Google désindexe automatiquement les URL qui ne renvoi pas un code HTTP 2XX au bout d’un certain temps, mais vous pouvez accélérer la procédure en faisant une demande de suppression depuis Google Search Console.

Attention si la page renvoie toujours un code 2XX et qu’il n’y a pas de meta robot ou autre qui demande à ne pas indexer la page alors le contenu peut à nouveau être indexé au bout de 6 mois.