Comment créer un fichier txt de robots

Table des matières
Lorsque les moteurs de recherche arrivent sur un site Web, ils commencent à chercher le fichier robots.txt pour le lire. Cela dépendra de son contenu pour que le moteur de recherche continue à l'intérieur du site ou passe à un autre.
Le fichier robots.txt contient une liste de pages autorisées à être indexées par le moteur de recherche, limitant à son tour l'accès à certains moteurs de recherche de manière sélective.

Il s'agit d'un fichier ASCII qui doit se trouver à la racine du site. Les commandes qu'il peut contenir sont :
Utilisateur agent: Il permet de préciser quel robot suivra les ordres qui lui sont présentés.
Ne pas permettre: Il est utilisé pour identifier les pages qui vont être exclues lors du processus d'analyse par le moteur de recherche. Il est important que chaque page à exclure ait des lignes séparées et qu'elle commence également par le symbole /. Avec cette symbologie, il est spécifié; à "toutes les pages du site".
Il est extrêmement important que le fichier robots.txt ne contienne pas de lignes vides.
Quelques exemples sont présentés ci-dessous;
  • Lorsque vous souhaitez exclure toutes les pages ; l'agent utilisateur est : Ne pas autoriser : /.
  • Si l'objectif n'est d'exclure aucune page, alors le fichier robotos.txt ne doit pas exister sur le site, c'est-à-dire que toutes les pages du site seront visitées de manière égale.
  • Lorsqu'un robot particulier est exclu, ce sera :
  • Utilisateur de l'agent : Nom du robot Ne pas autoriser : / Utilisateur de l'agent : * Ne pas autoriser :
  • Lorsqu'une page est exclue; Utilisateur de l'agent : * Ne pas autoriser : /directory/path/page.html
  • Lorsque toutes les pages d'un répertoire sont exclues du site Web avec leurs sous-dossiers correspondants, ce sera le cas; Utilisateur de l'agent : * Ne pas autoriser : /répertoire/
Avec ce fichier, vous pouvez empêcher les moteurs de recherche d'avoir accès à certaines pages ou répertoires, vous pouvez également bloquer l'accès à des fichiers ou à certains utilitaires.
Une autre fonctionnalité est d'empêcher l'indexation des contenus dupliqués trouvés sur le site, afin de ne pas être pénalisé.
D'autres considérations à prendre en compte sont que certains robots peuvent ignorer les instructions présentées dans ce fichier, et il doit également être clair que le fichier est public puisque toute personne qui écrit www.example.com/robots.txt peut y avoir accès.
Maintenant, la question peut être; Comment générer le fichier robots.txt ?
C'est en fait assez simple puisqu'il s'agit d'un document texte portant le nom "robots.txt" puis le télécharger à la racine du domaine de la page, c'est là que les moteurs de recherche iront le chercher pour qu'il soit lu.
Un fichier robots.txt de base peut être :
Agent utilisateur: *
Interdire : / privé /
Des instructions sont générées pour refuser l'accès à un répertoire qui sera « privé » pour tous les moteurs de recherche.
La commande détermine qu'elle s'adresse à tous les robots (User-agent : *), en précisant que le répertoire est interdit (Disallow : /private/).
Le paramètre utilisé pour le moteur de recherche Google est; User-agent : Googlebot
Comme mentionné précédemment, son utilisation dans le référencement est utilisée pour restreindre l'accès des robots au contenu dupliqué.Avez-vous aimé et aidé ce tutoriel ?Vous pouvez récompenser l'auteur en appuyant sur ce bouton pour lui donner un point positif

Vous contribuerez au développement du site, partager la page avec vos amis

wave wave wave wave wave