Les annuaires
· à couverture mondiale : Yahoo (5 milliards de pages), Galaxy, Open Directory …
· à couverture francophone : Yahoo France

 

Les moteurs de recherche
· à couverture mondiale : AltaVista ; AllTheWeb ; Google (8 milliards de pages) ; MSN LiveSearch ; Exalead
· à couverture francophone : Voila, AOL.FR … mirago, pour des réponses locales

Fonctionnement :
-un robot (spider ou crawler) parcourt la toile (une partie) et revisite les sites afin d'en suivre l'évolution ; aucun robot n'indexe plus de 16% des pages internet
- un indexeur : élimination de documents peu crédibles (présentation sous la forme d'une liste de mots-clés pondérés)
- un guichetier qui répond aux requêtes des internautes, en travaillant sur des index (100 à 400) enregistrés sur plusieurs serveurs.

Le nombre moyen de mots par requête est de 2.4, près de 60% des questions portent sur un uniterme et 40% des internautes ne consultent que la première page.
Dans le cas de besoins précis d'informations, il est parfois préférable de poser directement la question : "qui a découvert le vaccin contre la peste ?" "qu'est-ce qu'une compétence transversale ?"

 

Les méta-moteurs interrogent de manière simultanée et rapide différents outils de recherche. Ils constituent des outils de veille performants mais génèrent souvent du bruit.
On distingue deux types de méta-moteurs : en ligne et client

DogPile. 25 outils de recherche dont : Yahoo!, Lycos' A2Z, Excite Guide, World Wide Web Worm, WWW Yellow Pages , PlanetSearch, What U Seek, Lycos, WebCrawler, InfoSeek, OpenText, AltaVista, Excite & HotBot, Hotbot News, Reference.com, Dejanews, Infoseek News, Altavista, Dejanews' old Database, Filez, FTP Search et Snoopie!
AND, OR, NEAR, NOT, guillemets et parenthèses [Pour les outils ne les gérant pas : NEAR remplacé par AND ; NOT et les mots suivants supprimés ; AND implicite].
Résultats par outil de recherche sans dédoublonage.

Kartoo. Clermont Ferrand
+, AND, ET : implicites, espaces = "ET" ; OR.
URL : pages dont l'adresse contient
LIKE : sites similaires
HOST : sur un site donné
TITLE : dont le titre contient
DOMAIN : dont le domaine est
TEXT : dans le texte en priorité
LINK : dans un lien hypertexte
IMAGE : des images
NEAR : 2 mots proches l'un de l'autre sur une page
Langage Naturel : si détecte un point d'interrogation, interroge les moteurs les plus performants en langage naturel.

Magellan
Veille en ligne

MetaCrawler
Le premier métamoteur, développé à l'Université de Washington. Interroge plusieurs index, élimine les URL en double. Lycos, Yahoo, InfoSeek, Excite, HotBot, WebCrawler et EINet Galaxy.
Suite de mots (phrase), et (all), ou (any).


Les méta-moteurs clients
Logiciel installé sur la machine que l'on peut associer à un aspirateur de sites pour les consulter hors ligne. Permet un travail de veille avec gestion de profils et calendriers

Copernic
Recherches simultanées sur de nombreux moteurs de recherche et annuaires. Classement par ordre de pertinence, doublons et liens périmés éliminés automatiquement. Possibilité de télécharger pour consulter hors ligne, surveillance automatisée du contenu des pages.

Strategic Finder

Umap
Français : 16 moteurs, élimine doublons et cartographie les réponses
.

 

Retour
Impression autorisée pour une utilisation non commerciale Nicolas Dompnier 38000 Grenoble 2009