Bonjour,
classer ceci dans la rubrique Astuce est peut être un peu fort, puisque en fait je ne sais pas si c'est un bug ou une astuce, en tout cas, il convient de bien se méfier de la façon dont est rempli le fichier robots.txt. J'ai ouvert ce billet en écho (et en continuation) de celui ouvert par FlodAriège : http://forum.joomla.fr/showthread.ph...le-sur-le-site ainsi que cet autre fil ou la discussion était reprise sous un autre angle : http://forum.joomla.fr/showthread.ph...nent-elles-pas (posts #22 et #23 notamment).
Le contenu de mon fichier robots.txt est à l'origine celui-ci (intégralement) :
Il satisfait correctement aux exigences de Google concernant les dernières moutures du contrôle d'accès aux fichier css et js notamment dans le cadre de l'ergonomie mobile.
A ce moment là, tester une url se terminant par .feed?type=rss donne les résultats attendus (l'url n'est ni indexée, ni parcourue par Googlebot) :
ce qui est évidemment le résultat attendu.
Suite à diverses discussions dont celles notées ci-dessus, j'ai rajouté en fin de fichier les lignes ci-après :
(A noter si vous ne le savez pas déjà que ceci peut être effectué directement dans GWT (Google Web Tools) dans la rubrique Exploration > Outil de test du fichier robots.txt, qui est éditable et permet de tester en temps réel les résultats de vos modifications avant de les passer en production.
En faisant cela, j'ai tout cassé, puisque une simple consigne comme :
ne fonctionne plus à preuve :
L'url testée (la même exactement que dans le test précédent) se terminant pourtant par .feed?type=rss passant du coup comme une lettre à la poste. Étonnant non ?
Si l'on supprime la référence à Googlebot introduite précédemment en enlevant la ligne :
Tout revient en ordre :
Je n'ai trouvé aucune explication à ceci dans la documentation Google pour le fichier robots.txt (ou alors j'ai mal cherché ).
Soit il faut être vraiment méticuleux sur l'écriture du fichier, soit il faut vraiment testé ligne à ligne !
Nota : Bien entendu l'exemple pris avec les urls se terminant par .feed est reproductible avec toutes celles passées en Disallow dans les lignes précédentes ...
classer ceci dans la rubrique Astuce est peut être un peu fort, puisque en fait je ne sais pas si c'est un bug ou une astuce, en tout cas, il convient de bien se méfier de la façon dont est rempli le fichier robots.txt. J'ai ouvert ce billet en écho (et en continuation) de celui ouvert par FlodAriège : http://forum.joomla.fr/showthread.ph...le-sur-le-site ainsi que cet autre fil ou la discussion était reprise sous un autre angle : http://forum.joomla.fr/showthread.ph...nent-elles-pas (posts #22 et #23 notamment).
Le contenu de mon fichier robots.txt est à l'origine celui-ci (intégralement) :
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Allow: /components/*/assets/css/*.css$
Allow: /components/*/assets/js/*.js$
Allow: /components/com_komento/assets/images
Allow: /components/com_komento/themes
Allow: /components/com_jce/editor/tiny_mce/plugins
Allow: /components/com_kunena/template
Allow: /components/com_seoglossary/templates
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Allow: /modules/mod_cookiesaccept
Allow: /modules/mod_slideshowck
Allow: /modules/mod_itpshare
Disallow: /plugins/
Allow: /plugins/system/jcemediabox
Allow: /plugins/system/jsntplframework
Allow: /plugins/system/tooltipgc
Disallow: /templates/
Allow: /templates/*/images
Allow: /templates/*/css
Allow: /templates/*/js
Disallow: /tmp/
Disallow: /*/component/mailto/*
Disallow: /*print=1*
Disallow: /*.feed*
Noindex: /*?view=archive
Noindex: /*component/tags/tag
Noindex: /*print=1*
Noindex: /*?id=article*
Noindex: /*/component/content/article.html?id=*
Noindex: /component/mailto/*
Sitemap: http://www.guerrier-celeste.fr/index...component&id=1
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Allow: /components/*/assets/css/*.css$
Allow: /components/*/assets/js/*.js$
Allow: /components/com_komento/assets/images
Allow: /components/com_komento/themes
Allow: /components/com_jce/editor/tiny_mce/plugins
Allow: /components/com_kunena/template
Allow: /components/com_seoglossary/templates
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Allow: /modules/mod_cookiesaccept
Allow: /modules/mod_slideshowck
Allow: /modules/mod_itpshare
Disallow: /plugins/
Allow: /plugins/system/jcemediabox
Allow: /plugins/system/jsntplframework
Allow: /plugins/system/tooltipgc
Disallow: /templates/
Allow: /templates/*/images
Allow: /templates/*/css
Allow: /templates/*/js
Disallow: /tmp/
Disallow: /*/component/mailto/*
Disallow: /*print=1*
Disallow: /*.feed*
Noindex: /*?view=archive
Noindex: /*component/tags/tag
Noindex: /*print=1*
Noindex: /*?id=article*
Noindex: /*/component/content/article.html?id=*
Noindex: /component/mailto/*
Sitemap: http://www.guerrier-celeste.fr/index...component&id=1
A ce moment là, tester une url se terminant par .feed?type=rss donne les résultats attendus (l'url n'est ni indexée, ni parcourue par Googlebot) :
ce qui est évidemment le résultat attendu.
Suite à diverses discussions dont celles notées ci-dessus, j'ai rajouté en fin de fichier les lignes ci-après :
User-agent: Googlebot
Allow: *.css
Allow: *.js
Allow: *.css
Allow: *.js
En faisant cela, j'ai tout cassé, puisque une simple consigne comme :
Disallow: /*.feed*
L'url testée (la même exactement que dans le test précédent) se terminant pourtant par .feed?type=rss passant du coup comme une lettre à la poste. Étonnant non ?
Si l'on supprime la référence à Googlebot introduite précédemment en enlevant la ligne :
User-agent: Googlebot
Je n'ai trouvé aucune explication à ceci dans la documentation Google pour le fichier robots.txt (ou alors j'ai mal cherché ).
Soit il faut être vraiment méticuleux sur l'écriture du fichier, soit il faut vraiment testé ligne à ligne !
Nota : Bien entendu l'exemple pris avec les urls se terminant par .feed est reproductible avec toutes celles passées en Disallow dans les lignes précédentes ...
Commentaire