Pour comprendre plus en détail le fonctionnement du moteur de recherche de Google, nous allons étudier dans ce cours l’algorithme Panda pour savoir comment Google arrive à détecter le spamdexing.
Temps de lecture estimé : 5 minutes
À quoi sert l’algorithme Panda ?
Le nom de cet algorithme provient des 2 principaux ingénieurs qui ont travaillé sur cette algorithme : Navneet Panda et Biswanath Panda.
Et ce célèbre Panda est né peu de temps après la refonte de la structure de l’indexation de Google en 2010 (Google Caffeine), qui a eu pour effet d’indexer plus rapidement de nouveaux contenus, mais par la même occasion beaucoup plus de contenus de faible qualité voir de spamdexing.
Sa première mise en application le 24/02/2011, a d’abord concerné uniquement les États-Unis avant d’être déployée sur le reste du monde le 12/08/2011 et enfin être intégré à part entière dans le fonctionnement de Google en 2015.
L’objectif de Google Panda est donc de nettoyer l’index de Google en pénalisant les sites web ayant des contenus de mauvaise qualité tels que :
- Bourrage de mots-clés (keyword stuffing) : Les contenus sont optimisés en ajoutant à de très nombreuses reprises le mot-clé ciblé pour améliorer le score de pertinence du contenu.
- Fermes de contenu (fait pour Adsense):
- Cibler des mots-clés ayant beaucoup de trafic.
- Créer des contenus de faible qualité.
- Utiliser une structure de pages très bien optimisée.
- Utiliser de la publicité sur le site
- Agrégateurs de contenu : Sites web qui ne sont pas propriétaire du contenu (que ça soit licite ou non).
- Comparateurs de prix : Google évite les pages de résultats de moteur interne au site.
- Sites de questions/réponses : Google demande à désindexer les pages de questions sans réponse.
Le duplicate content, ne fait pas partie des critères de Google Panda, cette détection est réalisée par le crawler.
Comment fonctionne l’algorithme Panda ?
Dans l’étude « Detecting Spam Web Pages through Content Analysis » de 2006 nous pouvons voir que certains signaux peuvent être utiliser pour détecter le spam.
Cet algorithme est conçu spécialement pour détecter les caractéristiques du spam et en fonction d’un arbre de décision décide si oui ou non le contenu est du spam.
D’après l’étude sur le webspam des frères Peyronnet de 2014 : la principale préoccupation d’un moteur de recherche est de réussir à proposer des résultats dont il peut être fière.
C’est pourquoi, il est fort probable que les moteurs préfèrent consacrer leurs efforts à repérer les bons contenus que les mauvais.
Auteur : Thomas Viennet - Freelance SEO
Dernière mise à jour : 9 août 2024
Principales sources d’informations
- Spam, Damn Spam, and Statistics (2004) par Dennis Fetterly (Microsoft Research), Mark Manasse (Microsoft Research) et Marc Najork (Microsoft Research)
- Detecting Spam Web Pages through Content Analysis (Mai 2006) Alexandros Ntoulas, Marc Najork, Mark Manasse et Dennis Fetterly.
- Webspam Demotion: Low Complexity Node Aggregation Methods par Thomas Largillier et Sylvain Peyronnet.
- Formaseo Niveau 2 : Algorithmie des moteurs de recherche (Décembre 2020) par Guillaume et Sylvain Peyronnet, experts incontournables du domaine, fondateurs de yourtext.guru et babbar.tech.