Utiliser le robots.txt

Qu'est ce que le fichier robots.txt dans un site ?

Le fichier robots.txt sert à dialoguer avec les "bots" dont chaque grand moteur de recherche tel Bing et Google est équipé, ces bots parcours votre site web afin de référencer vos pages (on appel cela crawler un site internet).

Chaque moteur peut avoir des instructions uniques dans le robots.txt

La première instruction est de nommer le bot ou les bots avec lequel on veut discuter, communément on donne les mêmes directives à tous les bots :

User-agent: *

Pour nommer uniquement le bing bot :

User-agent: msnbot

Régler la vitesse de visite des moteurs de recherche

Les moteurs peuvent "aimer" votre site et devenir très gourmand en parcourant incessamment le site web, dans ce cas si cela bloque des ressources ou que vous atteignez trop régulièrement le "max user connection" mysql, il faut ralentir les moteurs avec l'instruction :

Paramètre Crawl-delay Rafraîchissement des données
Vitesse normal Normal
1 lent
5 très lent
10 Extrémement lent

Pour tous les bots :

User-agent: *

Crawl-delay: 1

pour seulement le msnbot :

User-agent: msnbot

Crawl-delay: 1

A noter pour le crawl-delay

Ce paramètre n'est pas obligatoire, il prendra la valeur "Normal" si il n'est pas renseigné.

Autoriser le ou les bots à parcourir un répertoire ou non

Autorisation d'accès à un dossier ou un fichier

Allow: /media/com_joomfish/default/flags/fr.gif

Interdiction de parcourir un dossier ou fichier

Pour un site Joomla, généralement on cache le répertoire d'administration car l'on ne veut pas le référencer :

Disallow: /administrator/

Utiliser le robots.txt
Note 5 sur 5 Pour 3 votes