|
Les annuaires
· à couverture mondiale : Yahoo (5 milliards de pages), Galaxy,
Open Directory …
· à couverture francophone : Yahoo France
Les moteurs de recherche
· à couverture mondiale : AltaVista ; AllTheWeb ; Google (8 milliards
de pages) ; MSN LiveSearch ; Exalead
· à couverture francophone : Voila, AOL.FR … mirago,
pour des réponses locales
Fonctionnement :
-un robot (spider ou crawler) parcourt la toile (une partie) et revisite les
sites afin d'en suivre l'évolution ; aucun robot n'indexe plus de 16% des
pages internet
- un indexeur : élimination de documents peu crédibles (présentation sous la
forme d'une liste de mots-clés pondérés)
- un guichetier qui répond aux requêtes des internautes, en travaillant sur
des index (100 à 400) enregistrés sur plusieurs serveurs.
Le nombre moyen de mots par requête est de
2.4, près de 60% des questions portent sur un uniterme et 40% des internautes
ne consultent que la première page.
Dans le cas de besoins précis d'informations, il est parfois préférable de
poser directement la question : "qui a découvert le vaccin contre la peste
?" "qu'est-ce qu'une compétence transversale ?"
Les méta-moteurs interrogent
de manière simultanée et rapide différents outils
de recherche. Ils constituent des outils de veille performants mais
génèrent souvent du bruit.
On distingue deux types de méta-moteurs : en ligne et client
DogPile.
25 outils de recherche dont : Yahoo!, Lycos' A2Z, Excite Guide, World
Wide Web Worm, WWW Yellow Pages , PlanetSearch, What U Seek, Lycos,
WebCrawler, InfoSeek, OpenText, AltaVista, Excite & HotBot, Hotbot
News, Reference.com, Dejanews, Infoseek News, Altavista, Dejanews'
old Database, Filez, FTP Search et Snoopie!
AND, OR, NEAR, NOT, guillemets et parenthèses [Pour les outils ne les
gérant pas : NEAR remplacé par AND ; NOT et les mots suivants
supprimés ; AND implicite].
Résultats par outil de recherche sans dédoublonage.
Kartoo.
Clermont Ferrand
+, AND, ET : implicites, espaces = "ET" ; OR.
URL : pages dont l'adresse contient
LIKE : sites similaires
HOST : sur un site donné
TITLE : dont le titre contient
DOMAIN : dont le domaine est
TEXT : dans le texte en priorité
LINK : dans un lien hypertexte
IMAGE : des images
NEAR : 2 mots proches l'un de l'autre sur une page
Langage Naturel : si détecte un point d'interrogation, interroge les
moteurs les plus performants en langage naturel.
Magellan
Veille en ligne
MetaCrawler
Le premier métamoteur, développé à l'Université de
Washington. Interroge plusieurs index, élimine les URL en double. Lycos,
Yahoo, InfoSeek, Excite, HotBot, WebCrawler et EINet Galaxy.
Suite de mots (phrase), et (all), ou (any).
Les méta-moteurs clients
Logiciel installé sur la machine que l'on peut associer à un
aspirateur de sites pour les consulter hors ligne. Permet un travail de veille
avec gestion de profils et calendriers
Copernic
Recherches simultanées sur de nombreux moteurs de recherche et annuaires.
Classement par ordre de pertinence, doublons et liens périmés éliminés
automatiquement. Possibilité de télécharger pour consulter
hors ligne, surveillance automatisée du contenu des pages.
Strategic
Finder
Umap
Français : 16 moteurs, élimine doublons et cartographie les réponses.
|