Comment Configurer correctement mon fichier robots.txt ?

comment configurer fichier robots txt

Table des matières

Vous pouvez manipuler les moteurs de recherche !

C’est vrai, vous pouvez contrôler les moteurs qui explorent et indexent votre site, jusqu’aux pages individuelles. Pour contrôler cela, vous devez utiliser un fichier robots.txt.

Robots.txt est un simple fichier texte qui se trouve dans le répertoire racine de votre site Web. Il indique aux robots envoyés par les moteurs de recherche comment explorer vos pages et celles à ignorer. C’est surtout un protocole d’exclusion de pages.

Il s’agit d’un outil puissant qui vous permettra de présenter votre site Web à Google de la manière dont vous souhaitez qu’il le voie.

Les moteurs de recherche sont des juges sévères, il est donc essentiel de faire une bonne impression.

Notez qu'il ne s'agit que d'un fichier destiné aux moteurs de recherche. Certains "spiders" ou "robots explorateurs" pourront décider de ne pas respecter les instructions de votre fichier. Je parle notamment des spiders malicieux, qui explorent le web à la recherche de failles de sécurité.

Alors, comment créer un robots.txt ? Comment l’utiliser ? Les choses à éviter ? On vous répond.

Vous cherchez à maitriser votre SEO ? Peut-être que notre formation va vous intéresser.

Pré-requis pour configurer un fichier robots.txt

La ressource principale est la documentation officielle de Google : https://developers.google.com/search/docs/advanced/robots/create-robots-txt?hl=fr

Il existe des aussi des instructions spécifiques aux autres moteurs de recherche.

Si vous hébergez votre site web sur OVH ou un autre service d’hébergement. Vous pourrez y installer facilement votre fichier. Si votre site web est hébergé avec Wix ou une autre CMS. Cela peut être compliqué (voir impossible).

Il vous faudra aussi accéder à votre site web via le protocole FTP afin d’y envoyer des fichiers.

FileZilla est une excellente solution, gratuite. Si vous travaillez avec Yoast ou RankMath, pas besoin de FileZilla.

Créer un fichier robots.txt

Cette partie n’est pas nécessaire si vous travaillez avec Yoast ou RankMath.

Vous pouvez créer ce fichier avec n’importe quel « bloc-note » ou « notepad ».

  • Nom exact du fichier : robots.txt
  • Emplacement exact du fichier : https://www.example.com/robots.txt (pas ailleurs)
L’interface de FileZilla et la structure d’un site web WordPress hébergé chez OVH.

Créer un fichier robots.txt avec Yoast

C’est simple !

01 – Cliquez sur l’onglet « Outils ».
02 – Cliquez sur éditeur de fichier

Si vous n’en avez pas encore, Yoast vous proposera de créer un fichier robots.txt et même le fichier .htaccess (c’est un autre sujet).

Le tour est joué !

Exemple d’Un fichier robots.txt pour WordPress

Chez Réseau Formation, nous nous concentrons essentiellement sur WordPress. Nous vous proposons le fichier suivant :

User-agent: *

# On empêche l'indexation des dossiers sensibles
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /trackback
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.gz$

# On désindexe la page de connexion (contenu inutile)
Disallow: /wp-login.php

Par contre, sachez qu’au sein de la communauté, les avis sont partagés.

On prône le minimalisme.

D’ailleurs, le fichier généré par Yoast est le suivant :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Beaucoup plus concis.

En effet, les crawlers de Google sont assez capables de détecter ce qu’il faut explorer et ce qu’il ne faut pas.

Plus vous renseignez d’informations dans le fichier robots.txt, plus il est possible de faire une boulette !

Exemples de robots.txt – Nike.com

Le magnifique robots.txt de Nike.com

On peut remarquer qu’il y a beaucoup d’interdictions (et d’autorisations) spécifiques pour les moteurs de recherche chinois (baidu, haosu et sogou) et pour les parties « privées » du site comme la partie « member/inbox », « checkout » et même des parties d’aides « help ».

Notez aussi qu’ils ont renseigné les adresses des sitemaps.

# www.nike.com robots.txt -- just crawl it.

User-agent: *

Disallow: */member/inbox
Disallow: */member/settings
Disallow: */p/
Disallow: */checkout/
Disallow: /*.swf$
Disallow: /*.pdf$
Disallow: /pdf/
Disallow: /ar/help/
Disallow: /br/help/
Disallow: /hk/help/
Disallow: /kr/help/
Disallow: /uy/help/
Disallow: /xf/help/
Disallow: /xl/help/
Disallow: /xm/help/

User-agent: Baiduspider
Allow: /cn$
Allow: /cn/
Allow: /CN$
Allow: /CN/
Allow: /assets/
Allow: /static/
Allow: /styleguide/
Disallow: */w?q=
Disallow: */w/?q=
Disallow: /
 
User-agent: HaoSouSpider
Allow: /cn$
Allow: /cn/
Allow: /CN$
Allow: /CN/
Allow: /assets/
Allow: /static/
Allow: /styleguide/
Disallow: */w?q=
Disallow: */w/?q=
Disallow: /

User-agent: Sogou web spider
Allow: /cn$
Allow: /cn/
Allow: /CN$
Allow: /CN/
Allow: /assets/
Allow: /static/
Allow: /styleguide/
Disallow: */w?q=
Disallow: */w/?q=
Disallow: /

User-agent: Sogou inst spider
Allow: /cn$
Allow: /cn/
Allow: /CN$
Allow: /CN/
Allow: /assets/
Allow: /static/
Allow: /styleguide/
Disallow: */w?q=
Disallow: */w/?q=
Disallow: /

User-agent: Sogou spider2
Allow: /cn$
Allow: /cn/
Allow: /CN$
Allow: /CN/
Allow: /assets/
Allow: /static/
Allow: /styleguide/
Disallow: */w?q=
Disallow: */w/?q=
Disallow: /

Sitemap: https://www.nike.com/sitemap-us-help.xml
Sitemap: https://www.nike.com/sitemap-landingpage-index.xml
Sitemap: https://www.nike.com/sitemap-pdp-index.xml
Sitemap: https://www.nike.com/sitemap-launch-index.xml
Sitemap: https://www.nike.com/sitemap-wall-index.xml
Sitemap: https://www.nike.com/sitemap-article-index.xml
Sitemap: https://www.nike.com/sitemap-locator-index.xml

#                                                                                                    
#                 ``                                                                        ```.`    
#               `+/                                                                 ``.-/+o+:-.      
#             `/mo                                                          ``.-:+syhdhs/-`          
#            -hMd                                                    `..:+oyhmNNmds/-`               
#          `oNMM/                                            ``.-/oyhdmMMMMNdy+:.                    
#         .hMMMM-                                     `.-/+shdmNMMMMMMNdy+:.                         
#        :mMMMMM+                             `.-:+sydmNMMMMMMMMMNmho:.`                             
#       :NMMMMMMN:                    `.-:/oyhmmNMMMMMMMMMMMNmho:.`                                  
#      .NMMMMMMMMNy:`          `.-/oshdmNMMMMMMMMMMMMMMMmhs/-`                                       
#      hMMMMMMMMMMMMmhysooosyhdmNMMMMMMMMMMMMMMMMMMmds/-`                                            
#     .MMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMNdy+-.`                                                
#     -MMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMNdy+-.`                                                     
#     `NMMMMMMMMMMMMMMMMMMMMMMMMMMMMMmyo:.`                                                          
#      /NMMMMMMMMMMMMMMMMMMMMMMMmho:.`                                                               
#       .yNMMMMMMMMMMMMMMMMmhs/.`                                                                    
#         ./shdmNNmmdhyo/-``                                                                         
#              `````                 

Exemples de robots.txt – yoast.com

Voici le robots.txt de Yoast. Très minimaliste effectivement.

# This space intentionally left blank
# If you want to learn about why our robots.txt looks like this, read this post: https://yoa.st/robots-txt
User-agent: *
Autres articles

Pour continuer à lire

Formation Shopify
bientôt disponible

Recevez une notification par email lors du lancement
et ne ratez pas l'occasion de vous inscrire.

Formation WooCommerce
bientôt disponible

Recevez une notification par email lors du lancement
et ne ratez pas l'occasion de vous inscrire.

Recevez les dates

des prochaines formations par email.