Pour comprendre plus en détail le fonctionnement du moteur de recherche de Google, nous allons étudier dans ce cours l’algorithme BERT pour savoir comment Google arrive à comprendre le sens des mots d’un contenu.
Temps de lecture estimé : 4 minutes
À quoi sert l’algorithme BERT de Google ?
Tout d’abord, il faut comprendre que pour classer les pages par rapport à une requête, il y a 2 enjeux principaux :
- Bien comprendre la requête et particulièrement le besoin informationnel / l’intention de recherche.
- Bien comprendre le contenu des pages et particulièrement l’intention à laquelle elle répond.
Pour ce qui est de la compréhension du contenu d’une page, les moteurs de recherche arrivent déjà très bien à le comprendre.
Aujourd’hui, c’est davantage vers la compréhension de l’intention de recherche d’une requête que la guerre sur la pertinence des résultats de recherche se joue. Et c’est en partie sur ce point que l’algorithme BERT est une petite révolution dans le domaine de la recherche d’information.
Comment fonctionne l’algorithme BERT ?
L’acronyme BERT qui signifie Bidirectional Encoder Representations from Transformers, est un algorithme de Natural Language Processing préentrainé qui permet de lever les ambiguïtés de langage en analysant le contexte dans lequel sont employé les mots.
Contrairement aux précédentes méthodes séquentielles (word2vec et autres) qui lisent les phrases dans un seul sens et qui utilisent un seul vecteur par mot, le fonctionnement bidirectionnel de BERT permet de lire les phrases dans un sens (de gauche à droite) et dans l’autre (de droite à gauche).
Cet algorithme de machine learning dédié au traitement du langage naturel est basé sur le mécanisme d’attention, c’est-à-dire la capacité à se focaliser sur l’important dans une phrase en analysant les relations entre les mots.
Pour comprendre concrètement cet avantage, prenons l’exemple fourni par Jacob Devlin : le mot « Bank » en anglais peut avoir plusieurs significations. Il peut s’agir d’une « banque », mais aussi de la « rive » d’une rivière. Par conséquent pour comprendre le sens du mot « bank », il faut prendre en considération le contexte dans lequel il est utilisé et l’indication peut être avant ou après le mot « bank ».
Cela permet une vraie amélioration pour la compréhension des requêtes longues avec un système de probabilité d’apparition d’un mot dans un contexte. Ainsi un même mot peut à présent avoir plusieurs vecteurs selon son contexte.
Notons également que d’une part BERT utilise une technique appelée NSP (Next Sentence Prediction), qui permet de mesurer la cohérence des phrases qui se suivent. Et d’autre part, son fonctionnement permet aussi faciliter le travaille des moteurs de recherche en répondant à de nombreux besoins de ceux-ci et donc faciliter la maintenance et l’évolution sans passer par une pluralité d’algorithme.
Auteur : Thomas Viennet - Freelance SEO
Dernière mise à jour : 4 février 2024
Principales sources d’informations
- Attention Is All You Need (06/12/2017) par Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser et Illia Polosukhin.
- Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing (02/11/2018) et Jacob Devlin et Ming-Wei Chang.
- BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (24/05/2019) par Jacob Devlin, Ming-Wei Chang, Kenton Lee et Kristina Toutanova.
- Understanding searches better than ever before (25/10/2019) par Pandu Nayak.
- BERT : Quelles sont les technologies derrière l’update et l’algorithme ? (14/11/2019) par Sylvain Peyronnet.
- Formaseo Niveau 2 : Algorithmie des moteurs de recherche (Décembre 2020) par Guillaume et Sylvain Peyronnet, experts incontournables du domaine, fondateurs de yourtext.guru et babbar.tech.
- Algorithme BERT décortiqué et expliqué (15/06/2021) par Sylvain Peyronnet co-fondateur de yourtext.guru et babbar.tech et Frédérik Bobet CEO de Trikaya Communication.