Qu'est ce que le fichier robots.txt dans un site ?
Le fichier robots.txt sert à dialoguer avec les "bots" dont chaque grand moteur de recherche tel Bing et Google est équipé, ces bots parcours votre site web afin de référencer vos pages (on appel cela crawler un site internet).
Chaque moteur peut avoir des instructions uniques dans le robots.txt
La première instruction est de nommer le bot ou les bots avec lequel on veut discuter, communément on donne les mêmes directives à tous les bots :
User-agent: *
Pour nommer uniquement le bing bot :
User-agent: msnbot
Régler la vitesse de visite des moteurs de recherche
Les moteurs peuvent "aimer" votre site et devenir très gourmand en parcourant incessamment le site web, dans ce cas si cela bloque des ressources ou que vous atteignez trop régulièrement le "max user connection" mysql, il faut ralentir les moteurs avec l'instruction :
Paramètre Crawl-delay | Rafraîchissement des données |
Vitesse normal | Normal |
1 | lent |
5 | très lent |
10 | Extrémement lent |
Pour tous les bots :
User-agent: *
Crawl-delay: 1
pour seulement le msnbot :
User-agent: msnbot
Crawl-delay: 1
A noter pour le crawl-delay
Ce paramètre n'est pas obligatoire, il prendra la valeur "Normal" si il n'est pas renseigné.
Autoriser le ou les bots à parcourir un répertoire ou non
Autorisation d'accès à un dossier ou un fichier
Allow: /media/com_joomfish/default/flags/fr.gif
Interdiction de parcourir un dossier ou fichier
Pour un site Joomla, généralement on cache le répertoire d'administration car l'on ne veut pas le référencer :
Disallow: /administrator/