L’histoire des moteurs de recherche

Maintenant que nous savons comment fonctionne un moteur de recherche comme Google, retraçons l’histoire des moteurs de recherche en passant par la genèse du domaine de la recherche d’informations, jusqu’à l’avenir des moteurs de recherche.

Temps de lecture estimé : 11 minutes

Les racines des moteurs de recherche

La conception des théories

Le domaine de la recherche d’information débute après la seconde guerre mondiale, avec la publication de l’article « As We May Think« , que l’on peut traduire en français par « Comme nous pourrions penser« , publié en juillet 1945 par Vannevar Bush en tant que directeur du Département de la Recherche Scientifique et du Développement des États-Unis.

À travers cet article, qui est un hymne aux progrès de l’humanité, Vannevar Bush souhaite inciter les savants à consacrer leur effort à améliorer les capacités de l’esprit de l’Homme, en rendant, en autres, accessible à tous toute la connaissance accumulée par l’humanité.

Retenons particulièrement ces extraits de son article où Vannevar Bush théorise la façon dont les humains stockent et recherchent l’information :

Imaginons un appareil de l’avenir à usage individuel, une sorte de classeur et de bibliothèque personnels et mécaniques. Il lui faut un nom et créons-en un au hasard, « memex » fera l’affaire. Un memex, c’est un appareil dans lequel une personne stocke tous ses livres, ses archives et sa correspondance, et qui est automatisé de façon à permettre la consultation à une vitesse énorme et avec une grande souplesse. Il s’agit d’un supplément agrandi et intime de sa mémoire.

[…] Le memex propose cependant un progrès immédiat, celui d’une indexation associative.

[…] C’est la caractéristique distinctive du memex. Le processus permettant de lier deux éléments est essentiel.

[…] Quand l’un de ces éléments est affiché, l’autre peut être instantanément et à tout moment convoqué.

[…] C’est exactement comme si des éléments physiques d’origines diverses avaient été rassemblés pour former un livre.

[…] N’importe quel élément peut appartenir à de nombreux itinéraires différents.

Source : Traduction intégrale de l’article « As we may think » de Vannevar Bush, The Atlantic Monthly, Washington d.c., juillet 1945.

Comme nous pouvons le constater, pour lui les informations devraient être organisées en les liant les unes entre elles, de façon à naviguer d’une information à une autre, comme le ferait un esprit humain à travers un cheminement de pensé.

Des années plus tard, les théories de Vannevar Bush vont grandement inspirer Ted Nelson qui en 1965 invente le terme « hypertexte » repris notamment par Timothy John Berners-Lee, principal inventeur du World Wide Web, pour lier les différentes ressources d’internet entre-elles.

Il a ensuite été rejoint par d’autres personnes, dont Robert Saxton Taylor, qui est alors bibliothécaire et qui travaille sur la notion de besoin d’information.

Robert Saxton Taylor publie plusieurs ouvrages, dont « The Process of Asking Questions » en 1962, où il décrit 4 niveaux de besoin d’information :

Le niveau viscéral : Il s’agit du besoin initial d’information, mais encore inexprimé / inconscient et qui va évolué avec les informations prochainement acquises.

Le niveau conscient : Une première description mentale ambiguë du besoin d’informations commence à se dessiner de façon consciente, mais nécessite encore d’être réfléchis et/ou discuté.

Le niveau formel : Une question peut être formulée et l’utilisateur peut se demander si une réponse peut lui être apportée.

Le niveau compromis : C’est à cette étape que l’utilisateur peut effectuer une recherche parmi les informations à se disposition pour y trouver des réponses.

Source : The Process of Asking Questions par Robert S. Taylor.

Il y mentionne aussi qu’en tant que bibliothécaire la compréhension de l’intention de recherche est déterminante pour accélérer le processus de recherche et délivrer les bonnes informations. Ce qui, comme nous le verrons plus tard dans ce cours, est un critère clé pour le classement des résultats des moteurs de recherche.

La mise en application des théories

Compréhension de l’intention de recherche

L’un des premiers algorithmes permettant de reformuler la requête pour améliorer la pertinence est celui de Rocchio qui date de 1971.

Celui-ci permet de créer une extension du modèle vectoriel de la requête initiale de l’utilisateur à partir de termes présents dans les contenus des résultats pertinents.

D’autres méthodes d’expansion et reformulation des requêtes ont vu le jour entre temps. Google a notamment déposé en 2012 un brevet sur l’évaluation des termes de substitution.

Calcule de similarité entre la requête et l’index

Ces théories ont ensuite été mise en application, dont notamment par Gerard Salton qui dans les années 1970 crée le modèle vectoriel et le « Cosinus de Salton » dans le cadre du projet SMART (System for the Mechanical Analysis and Retrieval of Text).

Les travaux de Gérard Salton, vont ensuite être amélioré dont notamment par Karen Spärck-Jones avec la méthode de pondération TF-IDF, ainsi que par Stephen Robertson avec le modèle BM25 qui ajoute de l’importance à la fréquence d’apparition d’un terme dans la requête pour le calcule du score de pertinence.

Ces méthodes avaient néanmoins les défauts de :

  • Ne pas prendre en compte l’ordre des mots en les jugeant comme étant indépendant les uns des autres.
  • Mettre en avant les textes les plus « ordinaires » qui utilisent le cluster de mots connus par le moteur de recherche.
  • Facilement manipulable par les référenceurs pour optimiser un contenu.

La naissance des moteurs de recherche

En parallèle de ces évolutions majeures dans le domaine de la recherche d’informations, nous avons eu la création d’internet et que de sa plus célèbre application en 1989 : le web.

Et avec le nombre grandissant de sites web présent, le besoin de pouvoir chercher et trouver les informations se fait de plus en plus ressentir.

C’est alors dans les années 1990 qu’on vît apparaître les 2 principales solutions pour répondre à ce besoin :

  • Les annuaires web où des humains référençaient tous les sites internet disponibles en les catégorisant le plus finement possible.
    • Cette solution n’offrait pas de réponse précise aux utilisateurs, mais proposait des sites susceptibles de répondre aux attentes des internautes.
  • Les moteurs de recherche qui utilisent des robots pour parcourir le web et indexer toutes les pages web. Puis les moteurs de recherche appliquent des algorithmes pour classer automatiquement ces pages web selon les requêtes des internautes.
    • Cette solution permet de faciliter grandement l’accès aux réponses des recherches des internautes.

Comme vous le savez, les annuaires ont ensuite été délaissés par les internautes, au profit des moteurs de recherche qui offrent des résultats de plus en plus pertinents.

Durant l’histoire des moteurs de recherche, nous avons vu plusieurs solutions apparaître sur le marché, dont ceux-ci :

Archie

  • Il est considéré comme le premier moteur de recherche de l’histoire, même s’il est en réalité loin de ce qu’on attend d’un moteur de recherche.
  • Il a été développé par Alan Emtage et J. Peter Deutsch, initialement en tant que projet étudiant au département informatique de l’Université McGill en 1987.
  • Le Centre Interdisciplinaire de Modélisation Mathématique et Informatique de l’Université de Varsovie a gardé une archive d’Archie à des fins historiques.

Petite histoire du moteur de recherche

Alan voulait au départ appeler le service « Archives », car à ses débuts le service se contentait de télécharger (avec le protocole FTP et non via un crawler) périodiquement les contenus d’une liste de sites définie. La recherche dans l’index du moteur se faisait ensuite grâce à la commande « grep » du système d’exploitation Unix qui effectue une recherche de chaînes de caractères.

Mais il a dû raccourcir le nom pour être conforme aux nomes d’attribution de noms courts d’Unix, ce qui donna « Archie » sans le « v ».

Source : The first search engine, Archie.

Infoseek

  • La société est créée en janvier 1994 par Steven Kirsch.
  • À son lancement le moteur de recherche est payant, mais il devient gratuit à partir d’août 1994.

Petite histoire du moteur de recherche

Infoseek avait été surnommé le big yellow (grand jaune) par analogie avec les pages jaunes mais cela avant le raz de marée de Google. Il a été fermé en 2011.

Source : Infoseek, wikipedia.

WebCrawler

  • Créé le 20 avril 1994 par Brian Pinkerton qui était alors chercheur à l’université de Washington.
  • WebCrawler a été le premier moteur de recherche à indexer intégralement le contenu des pages web.

Excite

  • Initialement créé en 1994 sous le nom Architext par 6 étudiants de l’université Stanford : Graham Spencer, Joe Kraus, Mark Van Haren, Ryan McIntyre, Ben Lutch et Martin Reinfried.
  • Lancé officiellement en 1995 sous le nom d’Excite suite à une série de levés de fond.

Petite histoire du moteur de recherche

Les fondateurs de Google, Sergey Brin et Larry Page, ont proposé en 1999 à George Bell, alors président et chef de la direction d’Excite, de racheter Google pour 1 million de dollars, car ce projet leur prenait trop de temps sur leurs études à l’université de Stanford.

Mais George Bell a refusé l’offre et également congédié Vinod Khosla (l’un des principaux investisseurs d’Excite) après que celui-ci ait réussi à baisser le prix du rachat de Google à 750 000 $.

Source : Quand Excite refusait de racheter Google pour 750 000 dollars, le Monde.

Lycos

  • Lycos a été créé par Michael Mauldin et son équipe en 1994.

Petite histoire du moteur de recherche

Même si la mascotte est un retriever noir nommé de « Lycos », l’origine du nom provient de l’abréviation du nom latin d’une araignée qui chasse en se précipitant sur ses proies : la Lycosidae.

Source : Lycos (portail web), wikipedia.

Yahoo!

  • Créée en janvier 1994 par David Filo et Jerry Yang à l’université Stanford.
  • Yahoo! a connu un grand succès jusqu’en 2010 avant de décliner année après année.
  • L’entreprise a fait l’objet de nombreux scandales :
    • Signature de « Public Pledge on Self-Discipline for the China Internet Industry« , que l’on peut traduire en français par « Engagement public sur l’autodiscipline pour l’industrie Internet chinoise« . De ce fait, les résultats quant à des recherches considérées comme étant « sensibles » par le gouvernement chinois sont limités. Par exemple, des recherches sur l’indépendance de Taïwan ou encore la manifestation sur la place de Tian’anmen sont censurées et il existe une liste noire de sites totalement inaccessibles qui n’a jamais été dévoilée publiquement par Yahoo!.
    • Reporters sans frontières a dévoilé que le jounarliste Shi Tao, qui a été condamné à dix ans de réclusion criminelle pour « divulgation illégale de secrets d’État à l’étranger », a été arrêté grâce à la collaboration de Yahoo! qui a divulgué des informations permettant aux autorités chinoises d’accéder à sa boite email.
    • Reuters a révélé en 2015 que Yahoo! utilisait un programme de surveillance en temps réel des boites e-mail de tous ses utilisateurs pour le compte du gouvernement américain.

Petite histoire du moteur de recherche

Le nom Yahoo! provient du nom donné aux humains dégénérés dans le « Voyage au pays des Houyhnhnms » du romain « Les Voyages de Gulliver » de Jonathan Swift, les « Yahoos ».

Source : Yahoo!, wikipedia.

AltaVista

  • Créé en 1995 principalement par Louis Monier et Michael Burrows.
  • Sa principale force a été d’indexer massivement et rapidement les pages web.

Petite histoire du moteur de recherche

AltaVista a été le premier moteur de recherche à prendre en considération dans la génération du classement de ses résultats :
– Les liens entre les différents sites (avant Google).
– Les interactions entre l’humain et le moteur de recherche.

Source : Algorithmie des moteurs de recherche, Formaseo.

Google

À présent, il ne reste réellement plus qu’un seul principal moteur de recherche mondial qui utilise sa propre technologie : Google qui a été fondé en 1998 par Larry Page et Sergey Brin, et qui est le descendant du projet BackRub.

La première force de Google à son lancement a été l’algorithme du PageRank créé par Larry Page qui s’est inspiré de l’algorithme HITS (Hyperlink –Induced Topic Search) de Jon Kleinberg.

L’algorithme HITS était alors utilisé pour les publications scientifiques afin de donner une certaine autorité aux publications en fonction du nombre de fois où celles-ci sont citées dans d’autres publications avec des liens.

La seconde force de Google provient quant à elle de Sergey Brin qui a su monétiser le moteur de recherche grâce avec un système d’enchère au coût par clic sur des mots-clés pour afficher des publicités (anciennement Adwords, et aujourd’hui Google Ads).

La troisième force de Google est d’avoir toujours su industrialiser des algorithmes à grandes échelles avant ses concurrents.

Durant son histoire Google a battu tous les records des moteurs de recherche pour finir par bâtir l’empire que nous connaissons à aujourd’hui, avec pour objectif principal : « organiser l’immense volume d’information disponible sur le Web et dans le monde« .

Petite histoire du moteur de recherche

À son lancement le slogan de Google était « Don’t be evil » (« Ne sois pas méchant »). Larry Page avait alors déclaré « Par cette phrase qui est notre devise, nous avons tenté de définir précisément ce qu’être une force bénéfique signifie – toujours faire la chose correcte, éthique ».

Puis en octobre 2015, le slogan est remplacé par « Do the right thing » (« Faites ce qui est juste »).

Pour devenir avril 2018 « don’t be evil, and if you see something that you think isn’t right – speak up! » (« Ne soyez pas méchant, et si vous voyez quelque chose que vous pensez ne pas être juste, parlez-en ! »)

Source : Google Code of Conduct, ABC.

MSN Search / Microsoft Bing

On peut aussi citer son principal concurrent mondial qui utilise également sa propre technologie : Microsoft Bing qui a été rendu public en 2009 et qui est le descendant de MSN Search lancé en 1998.

Petite histoire du moteur de recherche

Dans la guerre qui oppose Google et Microsoft Bing, il y a 2 histoires intéressantes :

– En 2011, Google a prouvé que Bing recopiait ses résultats de recherche en manipulant délibérément ses résultats pour des requêtes inexistantes comme par exemple « Hiybbprqag ».

– En 2018, Google a reçu une amande de 4,34 milliards pour avoir utilisé sa position dominante avec Android dans le but de protéger illégalement sa position dominante dans la recherche sur internet. Pour contester cette amande l’avocat de Google a indiqué en 2021 que « la requête la plus courante sur Bing est de loin Google », afin de démontrer que « les gens utilisent Google parce qu’ils le choisissent, et non parce qu’ils y sont forcés. ».

Baidu et Yandex

Comme vous le verrez dans le cours sur les parts de marché des moteurs de recherche, d’autres moteurs de recherche qui résistent encore et toujours à ces géants dans certaines parties du monde. À savoir, Baidu en Chine et Yandex en Russie.

L’évolution des moteurs de recherche jusqu’à aujourd’hui

Les résultats de recherche de Google ont été dès le début plus pertinents grâce notamment à la formule du PageRank de Larry Page, qui permet d’estimer la popularité d’une page web avec le modèle du surfeur aléatoire.

Mais c’est en 2010 que Google prend un avantage considérable sur ses concurrents grâce à :

  • « Caffeine » qui représente une nouvelle structuration de son indexation, permettant de détecter et indexer de nouveaux contenus nettement plus rapidement qu’avec l’ancienne structure de l’index composé de différentes « couches » qui devaient être mises à jour d’un bloc.
  • L’invention du PageRank thématique de Taher Haveliwala, qui prend en considération la proximité thématique entre les liens ainsi que différentes valeurs de popularité d’un contenu selon les thématiques.

En 2013, un virage important dans la recherche d’information est pris. Cela grâce à Tomas Mikolov qui invente avec « word2vec » un nouveau modèle qui apporte une vision différente du traitement de la langue tout en utilisant des réseaux de neurones.

En réalité, ce concept existe depuis les années 90, mais n’était pas encore réalisable techniquement.

Puis c’est en 2018 grâce, entre autres, à Jacob Devlin qu’arrive l’algorithme BERT (en quelque sorte le successeur de RankBrain de 2015), que nous avons eu une nouvelle grande avancée dans le domaine de la recherche d’information.

L’avenir des moteurs de recherche

Google a déjà annoncé une prochaine mise à jour importante de son fonctionnement avec l’algorithme MUM (Multitask Unified Model) dont la technologie est basée sur T5 (Text-To-Text Transfer Transformer Model). 

L’un des avantages certains de ce prochain algorithme (hormis le fait qu’il soit multitâche) est le fait qu’il soit multimodal.

Cela signifie qu’il peut encoder dans le même espace de vecteur tous les types de médias : image, texte, vidéo, audio, les différentes langues, etc.

Cette capacité lui permettra d’une part d’avoir une meilleure compréhension de l’intention de recherche. Et d’autre part de proposer une diversité format de réponses bien plus varié pour ainsi répondre encore plus précisément à l’intention de recherche.

Les possibilités d’un tel algorithme sont énormes. Pour ne donner que quelques exemples, nous pourrions :

  • Poser des questions avec l’utilisation de texte et de photo : « Quelle est l’utilité de cet objet [photo de l’objet] »
  • Poser une question dans une langue et obtenir des résultats traduits d’autres langues qui pourraient également être un résumé de ce contenu.
  • Demander à voir des photos de chevaux blancs qui courent sur une plage.
  • etc.
Thomas Viennet

Auteur : Thomas Viennet -
Dernière mise à jour : 4 février 2024


Principales sources d’informations

Menu de la formation 🧗

5/5 - (7 votes)