definition robots txt

Le fichier robots.txt permet aux webmasters de contrôler à quelles pages les robots d’indexation peuvent accéder

Qu’est-ce qu’un fichier robots.txt ?

Le fichier robots.txt est un fichier texte placé à la base d’un site web qui permet de transmettre des préférences aux robots d’indexation des moteurs de recherche. Il permet aussi aux administrateurs de pages web de restreindre l’accès aux fichiers et dossiers du site, par exemple pour éviter que les robots indexent des pages privées ou des fichiers sensibles.

Le robot d’un moteur de recherche (par exemple Google Bot) est un programme automatisé qui parcoure le web en suivant les liens à partir d’une page indexée. Lorsqu’il visite une page, il en extrait le contenu et l’ajoute à son index. Le fichier robots.txt permet aux administrateurs de sites internet de contrôler quelles pages les robots des moteurs de recherche peuvent ou ne peuvent pas indexer.

Par exemple, Google possède un index primaire et un index secondaire. Nous reviendrons sur ce concept dans cet article.

Comment créer un fichier robots.txt ?

Pour créer un fichier robots.txt, vous pouvez utiliser n’importe quel éditeur de texte, comme le Bloc-notes de Windows, TextEdit ou Notepad. Votre fichier robots.txt doit être enregistré avec le nom de fichier exact « robots.txt » et doit être placé dans le répertoire racine de votre site web. Par exemple, si votre site web est www.example.com, votre fichier robots.txt doit être accessible à l’adresse www.example.com/robots.txt.

Où place-t-on le fichier robots.txt sur un site web ?

Le fichier robots.txt se trouve généralement à la racine du site internet, par exemple : www.example.com/robots.txt. Il peut être placé dans un sous-dossier, par exemple : www.example.com/sitemap/robots.txt. Une fois que vous avez téléchargé le fichier robots.txt sur votre serveur web, les robots des moteurs de recherche peuvent lire les informations dans le fichier et indexer votre site en conséquence.

Le fichier robots.txt n’est pas obligatoire, mais il est recommandé d’en utiliser un pour empêcher les robots de Google d’accéder à des pages sensibles ou privées du site.

Les règles du fichier robots.txt sont basées sur les normes de l’Internet Robots Exclusion Protocol. Ce protocole permet aux robots de suivre les instructions du fichier robots.txt afin de mieux comprendre quelle page du site ils peuvent visiter. Les robots les respectent, généralement, car ils ne veulent pas être bloqués par les administrateurs du site.

Il arrive parfois que certains bots de type SPAM ne respectent pas ce fichier robots.txt. Nous parlons alors de « Bad Bot ».  Ces robots, destinés à récupérer (scraper) le contenu de sites internet, utilisent les ressources de votre serveur et contribuent à diminuer les performances et donc la vitesse de chargement de votre site.

Il existent des listes de « Bad Bot » SPAM disponibles sur internet et qui vous permettent de mettre à jour votre fichier robots.txt.

Comment les robots d’indexation analysent-ils le fichier robots.txt ?

Les instructions dans votre fichier robots.txt sont communiquées aux robots des moteurs de recherche via une « directive d’agent utilisateur » qui indique aux robots de Google laquelle ils doivent suivre. Cette directive est généralement écrite sous la forme « User-agent : [nom de l’agent utilisateur] ».

Par exemple, la directive d’agent utilisateur suivante indique aux robots d’indexation des moteurs de recherche Google que toutes les pages de votre site peuvent être indexées.

User-agent : Google

Il existe deux directives principales qui peuvent être utilisées dans le fichier robots.txt pour contrôler l’accès aux fichiers : Allow et Disallow. La balise [Disallow], par exemple, indique aux robots que la page ne peut pas être affichée dans les résultats de recherche.

Quelles sont les erreurs à éviter avec un fichier robots.txt ?

Les erreurs à éviter avec un fichier robots.txt sont nombreuses et peuvent facilement être commises par les néophytes. Voici quelques erreurs fréquentes :

  • Oublier de spécifier le chemin d’accès au fichier robots.txt.
  • Mauvaise utilisation des directives d’accès : une utilisation incorrecte peut entraîner des conséquences inattendues.
  • Oublier de spécifier les paramètres de crawl (sans quoi les robots ne pourront pas comprendre ce qu’ils doivent faire).
  • Utiliser des caractères spéciaux dans le fichier robots.txt (cela peut être mal interprétés par les robots).

En résumé, il est important de bien comprendre le fonctionnement du fichier robots.txt et de veiller à ne pas commettre les erreurs courantes lors de son utilisation.

close

Des TIPS Direct dans ta boite !

Reste informé des dernières techniques SEO & Content Marketing pour faire exploser ton trafic !

Nous ne spammons pas ! Consultez notre politique de confidentialité pour plus d’informations.