✅ Robots.txt ou norme d'exclusion des robots et exploration des moteurs de recherche

Table des matières

Bonjour à tous, je commence par ce tuto sur robots.txt, j'espère qu'il vous plaira

Autoriser tous les robots à visiter tous les fichiers stockés dans le répertoire racine du Web :

 User-agent : * Interdire :

Empêcher l'accès à tous les robots et à tous les fichiers stockés dans le répertoire racine :

 User-agent : * Interdire : /

Autoriser un seul robot à accéder, dans cet exemple, seul Google pourra explorer

 User-agent : googlebot Interdire : User-agent : * Interdire : /

Les robots les plus populaires ont un nom à utiliser dans user-agent
googlebot => pour Google
msnbot => Recherche MSN
yahoo-slurp => Yahoo!
scrubby => Frotter le Web
robozilla => Vérificateur DMOZ
ia_archiver => Alexa / Wayback
baiduspider => Baidu
Il y a aussi les robots plus spécifiques comme ceux en images
googlebot-image => Google Image
googlebot-mobile => Google Mobile
Un autre exemple pour que tous les sous-répertoires qui incluent le caractère générique (/) doivent être bloqués, uniquement ceux-ci, à l'exception de tous les autres fichiers et répertoires qui ne contiennent pas de caractère générique, nominalement les répertoires système ou back-end sont bloqués :

 User-agent : * Disallow : /cgi-bin/Disallow :/images/Disallow :/tmp/Disallow :/adminstrador/

Empêcher le suivi d'un fichier spécifique

 User-agent : * Interdire : /page.htm

Ceci est beaucoup utilisé lorsque nous voulons éliminer une page qui donne une erreur 404 ou éliminer une page des résultats de recherche, empêchant ainsi son crawl.
Gérer la fréquence des robots rampants
Depuis Google Analytics et de webmasteroutils vous pouvez voir les statistiques vous pouvez également voir que parfois certains robots prennent beaucoup de temps pour examiner notre site et soumettre des demandes au serveur, les robots consomment de la bande passante et des ressources comme s'ils n'étaient qu'un autre visiteur.
Il y a un moyen pour que les robots ne deviennent pas incontrôlables, nous pouvons dire à chacun
User-agent : googlebot Crawl-delay : 30
Avec cela, nous informons le robot Google d'attendre 30 secondes entre chaque crawl. Soyez prudent, car Crawl-delay peut ne pas être pris en charge par tous les moteurs de recherche, Bing et Google le font.
Le site officiel de robots.txt Il s'agit de http://www.robotstxt.org/ où nous trouverons les noms de tous les robots, les spécifications du code. Ici, il est exposé que les robots servent à standardiser ceux qui doivent être suivis et sont utilisés dans d'autres plates-formes pour suivre et valider le HTML, valider les liens, indexer les informations, mettre à jour le contenu des moteurs de recherche, protéger les sites Web.Avez-vous aimé et aidé ce tutoriel ?Vous pouvez récompenser l'auteur en appuyant sur ce bouton pour lui donner un point positif