Anciennes révisionsLiens de retourExporter en PDFHaut de page Share via Share via... Twitter LinkedIn Facebook Pinterest Telegram WhatsApp Yammer RedditDerniers changementsSend via e-MailImprimerPermalien × Moteurs de recherche crawlers Page relativement obsolète, voir plutôt: saygoodbye2google: crawlers Mon cours (2000, rev. mars 2006) http://radeff.red/fr/bcu/crawler0.htm Voir aussi mon cours moodle "Ressources pédagogiques internet" (protégé) Comment augmenter la visibilité de son site sur les moteurs de recherche http://atelierweb.epfl.ch/page9996.html Utilisation de levenshtein et autre fuzzy logic Trop souvent, on croit qu'en ajoutant un moteur de recherche à un site on obtiendra des résultats. Tout faux. Il faut travailler en amont (indexation des données au moment où on les rentre dans une base, ex. dokuwiki); en aval, il faut surveiller l'activité de recherche des surfeurs (requêtes qui n'aboutissent pas, fautes d'orthographes etc.) et adapter en fonction, de la manière suivante: supprimer les stopwords corriger l'orthographe / les synonymes (ex. immatrikulation ou admission → immatriculation) lancer l'usine à gaz levenshtein() si on ne trouve rien, ex. immmmmmatriculation → immatriculation dans le genre google “did you mean?” exemple base structures required: apache + php + mySql Idées / ToDo Quelques pistes de recherche que j'aimerai explorer: utilisation ajax: dès que l'usager se met à taper du texte, ajax communique avec le serveur et restreint la recherche à des tables indexées correspondant aux lettres tapées (plus rapide et peut même suggérer des motifs de recherche, exemple dans ce dokuwiki - taper p puis php création de sous-tables pour augmenter la vitesse de recherche exemple: 51'775 mots en tout l'utilisateur tape “c” → table “c”, 5'956 mots commençant par c l'utilisateur tape “ch” → table “ch”, 899 mots commençant par ch http://www.lexique.org/ pour avoir une liste des mots de la langue française (keywords: dictionnaire / encyclopédie / orthographe / grammaire) info/moteurs_de_recherche.txt Dernière modification : 2018/07/18 10:14de 176.9.50.244 S'identifier