Pour comprendre plus en détail le fonctionnement le moteur de recherche de Google, nous allons étudier dans ce cours comment un moteur de recherche peut détecter qu’un contenu est dupliqué.
Temps de lecture estimé : 4 minutes
Qu’est-ce que le duplicate content ?
Tout d’abord nous pouvons distinguer la duplication totale et la duplication partielle de contenu :
- Duplication totale : Elle se produit lorsqu’un même contenu est accessible depuis 2 urls différentes (DUST, pour Duplicate Url Same Texte).
- Duplication partielle : Elle se produit avec 2 urls qui contiennent en partie un pourcentage de contenu identique (Near duplicate).
Ces 2 cas de figure peuvent se produire que la duplication de contenu soit interne à un même site ou externe (entre 2 sites différents).
Dans tous les cas le crawler détectera cette duplication et en fonction de différents signaux (URL de la première indexation de ce contenu, autorité du site …), jugera de l’URL à garder et proposer dans ses résultats de recherche.
John Mueller a indiqué sur Twitter que Google ne considérait pas comme duplicate content les traductions d’un contenu dans une autre langue.
Cela dit, l’aspect légal de cette démarche est une autre histoire.
Pour éviter des problèmes d’indexation, il est préférable d’éviter d’avoir des contenus ayant un taux de duplication élevé (supérieur à 70%) entre des contenus internes.
Détecter et calculer le taux duplicate content
Quand détecter le duplicate content ?
Afin de limiter les coûts, c’est lors du crawl qu’un contenu peut être détecté comme étant un contenu dupliqué, ce qui permet au moteur de recherche d’éviter d’indexer un contenu sans valeur ajoutée.
Comment calculer le taux de duplicate content ?
Il existe plusieurs méthodes algorithmiques pour calculer une score de similarité / une distance, entre différents contenus.
Mais pour analyser les contenus en limitant les ressources nécessaires pour effectuer cette tâche, un moteur de recherche va privilégier une approche visant à recoder la structure du contenu.
Pour cela, on partitionne un contenu de façon plus ou moins fine et on compare la quantité de partitions qui sont identiques entre les contenus.
Par exemple, la similarité peut être calculée grâce à la distance de Jaccard entre 2 contenus où les différentes partitions se nomment des « Shingles ».
Les shingles sont composés d’une quantité de mots (ou caractères et autres) et la définition de ce nombre de mots se note « k-shingle » ou encore « n-gram », selon divers textes que vous trouverez à ce sujet.
Puis en divisant le nombre de shingles en commun par le nombre total de shingles des contenus, nous obtenons le taux de duplication.
Grâce à ce type d’approche, lorsque le GoogleBot crawl une page, il se sert de l’empreinte du nouveau document (par exemple l’encodage des shingles) et la compare avec celles qu’il connait déjà dans son index, pour arbitrer si oui ou non il faut indexer le contenu.
Auteur : Thomas Viennet - Freelance SEO
Dernière mise à jour : 4 février 2024
Principales sources d’informations
- Representative document selection for sets of duplicate documents in a web crawler system (19/07/2011) par Daniel Dulitz, Alexandre A. Verstak, Sanjay Ghemawat et Jeffrey A. Dean.
- Formaseo Niveau 2 : Algorithmie des moteurs de recherche (Décembre 2020) par Guillaume et Sylvain Peyronnet, experts incontournables du domaine, fondateurs de yourtext.guru et babbar.tech.