Moteurs de recherche

Généralités

lire les notices descriptives des opérateurs de recherche, et consulter régulièrement les sites donnant des informations sur les moteurs de recherche, p. ex. Search Engine Watch ou Abondance (en français)

Types d'outils disponibles + exemples
* moteurs de recherche Google, Altavista
* moteurs régionaux Virgilio (Italie)
* répertoires (les données sont classées par catégories, disciplines etc.) Yahoo
* encyclopédies (généralistes) Britannica
* bases de données spécialisées dans un domaine particulier IMDb (Internet Movie Database)
* semantic crawlers: kartoo, teoma
* métamoteurs: Metacrawler, copernic
* wikis: wikipedia

http://scholar.google.com/

What is Google Scholar? Google Scholar provides a simple way to broadly search for scholarly literature. From one place, you can search across many disciplines and sources: peer-reviewed papers, theses, books, abstracts and articles, from academic publishers, professional societies, preprint repositories, universities and other scholarly organizations. Google Scholar helps you identify the most relevant research across the world of scholarly research.

http://scholar.google.com/

Veille sur les moteurs de recherche

* 2 services anglophone (the best): http://www.searchenginewatch.com/
* francophone (pas mal): http://www.abondance.com/


Limites

temps, indexation = forte fluctuabilité
ex. "Andrei Roublev" sous Metacrawler donne 27 occurrences dont 0 pour Altavista, même recherche avec Altavista = 139 occurrences; à 30 secondes d'intervalle, Metacrawler donne 77 occurrences!

Troncatures & opérateurs booléens: AND, OR, NOT, NEAR


AND OR NOT NEAR(=NEAR)
AND OR NOT
Source images: http://www.nifl.gov/nifl/fellowship/reports/susanc/boole1.htm
Troncatures: particulièrement utiles, puisqu'elles permettent de définir un critère de recherche variable, p. ex. bogomil* AND bulgar* identifiera bogomil, bogomile, bogomiles, bogomilian et idem pour bulgar*. Attention, les troncatures (wildcards en anglais) varient d'un système à l'autre (en général *, parfois $ ou encore ?).

Le NOT peut être particulièrement intéressant lorsque les résultats de la recherche donnent un grand nombre d'occurrences, où l'on souhaite éliminer certaines occurrences qui sont responsables en majorité du bruit. Attention, sur certains sites francophones, le NOT s'écrit SANS. On peut parfois aussi utiliser des opérateurs mathématiques (+ pour ET, - pour NOT). De manière générale, il faut TOUJOURS consulter les rubriques d'aides avancées qui expliquent le fonctionnement du moteur de recherche et des options booléennes. Sur altavista p. ex., l'opérateur NOT s'écrit AND NOT.

Near

(nettement moins utilisé, pas disponible sur google)
L'opérateur de proximité NEAR permet de trouver des sites contenant 2 ou plusieurs termes situés à une "distance" évaluée en nombre de mots.

Combinaison de plusieurs opérateurs: soit une recherche francophone portant sur la notion de "sang du christ", "christ en sang" etc.; on veut exclure les occurrences commerciales, ainsi que les sites français, canadiens, belges et suisses, les .org, les .net ainsi que les références au sida ou au saint-suaire: on peut imaginer la ligne de commande suivante:
(Christ NEAR sang) AND NOT (sida OR ".it" or suaire or ".be" or ".ch" or ".com" or ".ca" or ".fr" OR ".org" OR ".net")
(altavista nous donne 285 000 résultats pour cette recherche, alors qu'il nous donne 3 660 000 résultats pour +sang +Christ)

Opérateurs sur chaînes de caractères

"La passion selon Saint-Matthieu" Google 12 100 résultats, idem avec
"La passion selon Saint Matthieu"

La passion selon Saint-Matthieu Google 170 000 résultats

Orthographe

"La passion selon Saint-Mathieu" Google 490 pages

Langues & pays

Translitérations: distinguer p. ex. Roublev (env. 56 300 occurrences sur Google) de Rublev (278 000 occurrences), Rubliov donne 11 000 occurrences et Google suggère "Essayez avec cette orthographe : Rublyov ", 29 100 pour Rublyov, alors que Rublef ("Essayez avec cette orthographe : Rublev ") et Rubleff (Essayez avec cette orthographe : Rouble !!!!) ne donnent que respectivement 91 occurrences et 174

De manière générale, il peut toujours être utile de chercher dans des moteurs de recherches nationaux

Caractères non-latins & autres langues

moteurs russes: aport.ru , metabot.ru (v. angl. dispo.), www.ru (angl.), krusenstern.de (ru/angl/all)
moteurs asiatiques

Multimédia

images, sons, mp3
ex. napoléon (image), churchill (audio)


Recherche DANS une page web

Une fois la page chargée, vous pouvez utiliser l'outil de recherche interne de votre navigateur, qui vous permet de situer précisément l'emplacement de la chaîne de caractères recherchée (Ctrl-F ou menu Edition-Rechercher); de plus, toutes les pages chargées par cette éditeur accepteront la même chaîne de recherche par défaut, si vous tapez Ctrl-F.
exemple: CTRL-F "paresse" dans le droit à la paresse de P. Lafargue

Google

Google est aujourd'hui le moteur le plus performant, tant au niveau de la rapidité des résultats que de leur quantité et surtout de leur qualité. Cette qualité se base notamment sur le système original de Google dans le classement des résultats. La pondération se fait sur 2 critères:
  • la popularité, comme c'est le cas sur la plupart des autres moteurs, calculée en fonction de la demande des usagers pour tel ou tel site. Revers de la médaille: des homonymes "grand public" créent un bruit considérable dans la recherche académique, exemple (toujours le même...) de Calvin & Hobbes pour le théologien Calvin;
  • l'importance (qualité du contenu) est calculée de manière intéressante, selon le principe suivant:

  • "Essentiellement, Google interprète un lien de la page A vers la page B comme un vote, de la page A, en faveur de la page B. Google détermine l'importance d'une page par les votes qu'elle reçoit. Mais Google ne se limite pas à compter le nombre de votes, ou liens ; il analyse également la page qui émet le vote. Les votes émis par des pages qui sont elles-mêmes "importantes" ont plus de poids et contribuent à rendre d'autres pages "importantes". (http://www.google.com/intl/fr/why_use.html).
ATTENTION: malgré une renommée moins commerciale, Google, comme ses concurrents, propose à ses clients "d'acheter" une place dans sa hiérarchie. Moyennant paiement, vous pouvez contraindre la pondération en votre faveur et ainsi pousser le moteur à vous placer dans les premiers résultats.

Opérateurs spéciaux chez Google

Choisir en haut à droite "Recherche avancée" ou "Advanced Search". Vous disposez maintenant d'un formulaire vous facilitant la recherche avancée. Toutes les options sont aussi disponibles "manuellement", c'est-à-dire en tapant directement dans la fenêtre de recherche et la grammaire est spécifiée à http://www.google.com/help/operators.html.

Parmi les opérateurs intéressants, relevons:

cache: permet de visualiser le cache de Google (les archives de la base), très utile lorsque la ressource n'est plus ou pas disponible sur internet. On obtient le même résultat en clickant sur l'option "Cached" dans la liste de résultats d'une recherche Google standard.

link: permet de visualiser les pages recensées par google qui pointent sur l'adresse spécifiée

spell: lorsque vous n'êtes pas sûr de l'orthographe d'un terme, Google vous propose termes approchants

site: TRES utile, restreint la recherche au site spécifié

allintitle: permet de spécifier que l'on ne recherche que dans le titre de la page (ce qui apparaît tout en haut de la fenêtre de votre navigateur quand vous affichez la page); défaut: certains sites ne spécifient rien dans le titre. Avantage: discriminant.

filetype:pdf permet de limiter la recherche au fichiers PDF (portable document format), utile pour la recherche de texte intégral


Veille sur ressources, liens & textes intégraux

Enfin, vous êtes parvenus sur un ou plusieurs sites qui semblent contenir de l'information sur votre requête.

Enregistrez leur adresse - les sites bougent, et sont susceptibles de s'enrichir - ou, malheureusement, de disparaître, nécessitant ainsi un travail de veille. Dans l'idéal, il faut enregistrer aussi les données localement, les sites intéressants ayant une fâcheuse tendance à bouger ou pire à disparaître.

Retournez régulièrement sur vos signets de référence: à titre d'exemple, le site Athena de Genève, qui proposait quelques grands classiques de la littérature française en texte intégral il y a quelques années, propose maintenant de très nombreux classiques.

D'autre part, les sites ressources sont très utiles pour trouver directement de l'information pertinente, à travers leur page de liens: exemple, par la page de liens d'Athena j'ai découvert Gallica.
(voir liens sur texte intégral / full text)

Suivre l'actualité des développements, sur des sites de veille spécialisés comme slashdot.org afin de savoir quel système à le vent en poupe, et lequel est moribond (permet d'éviter de faire de grosses erreurs); utiliser les RSS
S'abonner à des forums / veilles automatiques, ex. google
accueil personnalisé

Prendre le café avec des informaticiens de temps en temps (pas trop souvent sinon ça donne des céphalées)

Moteurs de recherche sémantiques / topic maps

Citons engin quelques outils intéressants pour l'avenir de la recherche web:
# Oingo, un "meaning-based crawler" - racheté par Google en 2003 et plus opérationnel depuis...
# Teoma, un moteur sémantique très performant (la relève d'oingo)
# Kartoo, métamoteur de recherche qui présente ses résultats sous la forme d'une carte
Topic Maps: http://aqua.queenslibrary.org/


Exemple: recherche du point de vue du Vatican sur génocide arménien

Opération difficile s'il en est, on peut "bricoler" - avec les imperfections de ce genre d'approche.
Prenons l'exemple suivant: comment savoir quelle est la prise de position du Vatican sur la décision, fin 2000, du gouvernement français de reconnaître le génocide arménien, si possible en français.
Solution:
Il faut d'abord localiser le site web du vatican, on peut p. ex. taper dans Google "website vatican" et on obtient en tête de liste l'adresse, soit www.vatican.va.

Ensuite, il faut chercher dans le site du Vatican si l'information est disponible. Pour ce faire, taper (toujours dans Google):

"site:vatican.va génocide arménien"
Lors de ma première recherche (2000), on n'obtenait qu'une seule occurrence - la bonne, à savoir la prise de position officielle de Jean-Paul II sur la question, en français de surcroît. Depuis, d'autres pages sont venues "parasiter" la recherche, s'inscrivant après celle du Vatican, mais la procédure reste valable puisque le premier résultat est le bon.


Exemple plus complexe: Calvin & Hobbes

google
teoma (ask.com)
kartoo

Problème des faux amis, limites du booléen: "The worm of conscience"

il y a un concept qui concerne Thomas Hobbes et Jean Calvin:

Modifié le: jeudi 16 mars 2006, 21:50

Ancienne version