Moteurs de recherche
Page relativement obsolète, voir plutôt:
Mon cours (2000, rev. mars 2006)
http://radeff.red/fr/bcu/crawler0.htm
Voir aussi mon cours moodle "Ressources pédagogiques internet" (protégé)
Comment augmenter la visibilité de son site sur les moteurs de recherche
Utilisation de levenshtein et autre fuzzy logic
Trop souvent, on croit qu'en ajoutant un moteur de recherche à un site on obtiendra des résultats. Tout faux. Il faut travailler en amont (indexation des données au moment où on les rentre dans une base, ex. dokuwiki); en aval, il faut surveiller l'activité de recherche des surfeurs (requêtes qui n'aboutissent pas, fautes d'orthographes etc.) et adapter en fonction, de la manière suivante:
- supprimer les stopwords
- corriger l'orthographe / les synonymes (ex. immatrikulation ou admission → immatriculation)
- lancer l'usine à gaz levenshtein() si on ne trouve rien, ex. immmmmmatriculation → immatriculation dans le genre google “did you mean?”
exemple base structures
required: apache + php + mySql
Idées / ToDo
Quelques pistes de recherche que j'aimerai explorer:
- utilisation ajax: dès que l'usager se met à taper du texte, ajax communique avec le serveur et restreint la recherche à des tables indexées correspondant aux lettres tapées (plus rapide et peut même suggérer des motifs de recherche, exemple dans ce dokuwiki - taper p puis php
- création de sous-tables pour augmenter la vitesse de recherche
exemple:
51'775 mots en tout
l'utilisateur tape “c” → table “c”, 5'956 mots commençant par c
l'utilisateur tape “ch” → table “ch”, 899 mots commençant par ch
http://www.lexique.org/ pour avoir une liste des mots de la langue française (keywords: dictionnaire / encyclopédie / orthographe / grammaire)