Le robot.txt, l’allié d’un bon référencement

1

Beaucoup de personnes parlent du fichier robots.txt, mais très peu savent réellement ce que c’est. Et bien, il faut savoir que ce fichier joue un rôle très important pour le référencement d’un site web. C’est quoi le fichier robots.txt ? Comment créer un créer un fichier robots.txt ? Quelle est l’importance du fichier robots.txt ? Telles sont les questions auxquelles nous allons répondre dans cet article.

Définition du fichier robots.txt

Le fichier robots.txt est un fichier texte qui va faciliter le passage des robots des différents moteurs de recherches, il recommande aux robots ou aux spiders les pages qu’ils doivent ou non indexées. En des termes clairs, le robot txt donne des instructions aux spiders des moteurs de recherches sur ce qu’ils doivent faire ou ne pas faire. Cela peut paraitre anodin, mais il est d’une importance cruciale d’avertir les moteurs de ne pas indexé certaines pages comme par exemple les pages en travaux ou les pages dit « succès de paiement » en effet il serait dommage que Google passe sur une page en construction et qu’il se dise que le site est de mauvaise qualité à cause d’une page non fini ou qu’une personne arrive par inadvertance sur la page de succès de paiement (lui aura gagné votre produit vous en revanche ce sera un produit offert..)

Points très importants il ne doit y avoir qu’un seul robot txt par site, il doit se trouver à la racine, être écrit en minuscule, ne pas comporter d’accent, ne pas avoir une taille supérieure à 62 ko et ne doit pas avoir de ligne vide. Si une de ces consignes n’est pas respectée votre travail sur le robot txt ne servira  absolument à rien.

Vous devez savoir qu’avant toute indexation d’un site internet, les spiders vont d’abord faire une consultation du fichier robots.txt. Par exemple, lorsqu’un robot veut avoir accès à une page web www.monsite.com/page.html, il va essayer d’abord d’accéder au fichier robot.txt qui se trouve à l’adresse http://www.monsite.com/robots.txt. Au cas où le fichier robots.txt est inexistant, les spiders indexeront toutes les pages du site avec les points négatif que j’évoquais dans le premier paragraphe..


Exemple et format du robot.txt

Disallow : il sert à préciser les pages qui ne doivent pas être indexées. Le sigle / veut dire « toutes les pages du site ».

User-Agent : il sert à préciser le robot à qui les instructions sont données. Le sigle * veut dire « tous les moteurs de recherche ».

Exclure un robot :

User-Agent: NomDuRobot

Disallow: /

User-Agent: *

Disallow:

-Exclure toutes les pages:

User-Agent: *

Disallow: /

-Autoriser un seul robot :

User-Agent: NomDuRobot

Disallow:

User-Agent: *

Disallow: /

-Exclure aucune page :

User-Agent: *

Disallow:

-Exclure une page:

User-Agent: *

Disallow: /tempo/chemin/page.html

– Exclure plusieurs pages

User-Agent: *

Disallow : /tempo/chemin/page.html
Disallow : /perso/chemin/page2.html
Disallow : /entravaux/chemin/page3.html

 

En somme l’insertion du robot.txt fait partie des bases pour un bon référencement naturel il est indispensable pour savoir quelles pages doivent être indexés ou non et pour vous éviter des surprises. Il facilite l’accès et le parcours des moteurs de recherches sur votre site. Cependant, ce robot.txt doit être créé avec beaucoup de rigueur afin qu’il ne soit pas inutile voir pénalisant.

Share.

About Author

Créateur de la société référencement-one Charles Miron s'est passionnée d'internet et de référencement lors de ses études. Il a travaillé pour pour les sites e-commerces de Misericordia et Ellespassions (site du magazine féminin Elle) avant de lancer sa société. Référencement-one propose des services de référencement naturel, payant, création de site internet, e-commerce ainsi que des formations et des outils de veilles Auteur Google

Un commentaire

  1. Pingback: Robot.txt l'allié d'un bon réferencement | | Webmarketing, réseaux sociaux, référencement | Scoop.it

Leave A Reply

CAPTCHA
Change the CAPTCHA codeSpeak the CAPTCHA code