Accès de Googlebot aux fichiers CSS et JS impossible sur le site

Réduire
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • lomart
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    1 - Sur un site Joomla 3.4.x standard, sans aucune extension, quels fichiers et quels dossiers bloquerais-tu ?
    Code:
    User-agent: *
    Disallow: /administrator/
    Disallow: /bin/
    Disallow: /cli/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /layouts/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /tmp/
    Sitemap: http://lesite.fr/sitemap.xml
    Avec bien sur, une redirection dans le htaccess pour rendre disponible le sitemap disponible par http://lesite.fr/sitemap.xml à l'aide de :
    Code:
    RewriteCond %{REQUEST_URI} ^/sitemap.xml
    RewriteRule .* /index.php?option=com_xmap&view=xml&tmpl=component&id=1
    en adaptant ce code suivant l'extension de sitemap dont on dispose

    2 - Quelles instructions mettrais-tu dans les .htaccess en question ?
    une protection par mot de passe du dossier. Ce que sait très bien faire aesecure.
    Il faut toutefois tester que tous les composants que l'on utilise le supportent.

    Laisser un commentaire:


  • PhilJ
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Envoyé par lomart Voir le message
    Le moins possible.

    Pour moi, on ne met un htaccess restrictif que si on a un impérieux besoin de bloquer réellement l'accès, donc très peu souvent.
    C'est à tester.

    En pratique :
    1. Sur un site Joomla 3.4.x standard, sans aucune extension, quels fichiers et quels dossiers bloquerais-tu ?
    2. Quelles instructions mettrais-tu dans les .htaccess en question ?

    Laisser un commentaire:


  • lomart
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Très bon résumé
    1 - Quelles ressources faut-il bloquer, étant entendu qu'un blocage signifie ici seulement une préconisation de non indexation — et non pas une protection / une mesure de sécurité.
    Le moins possible

    2 - A efficacité comparable, la meilleure méthode pour ce faire est-elle la plus rapide ou la plus simple à mettre en œuvre ? Si oui, la méthode consistant à déposer des .htaccess dans les dossiers qu'on ne veut pas voir indexés est-elle la plus rapide ou la plus simple ?
    Pour moi, on ne met un htaccess restrictif que si on a un impérieux besoin de bloquer réellement l'accès, donc très peu souvent

    Un autre avantage de cette méthode est qu'elle pourra, sans doute, supporter de futures exigences de Google sans modifs.

    Laisser un commentaire:


  • PhilJ
    a répondu
    Bonjour,


    Envoyé par lomart Voir le message
    J'autoriserais /cache. Je connais au moins une extension qui l'utilise pour créer un dossier CSS avec de vrais morceaux de css à l'intérieur.
    Oui.


    Pour les dossiers components, modules et plugins : j'autoriserais globalement
    Reste à voir ensuite comment bloquer certaines ressources présentes dans ces dossiers.


    Ensuite, il faut mettre des .htaccess pour vraiment bloquer les endroits interdits.
    Je me trompe peut-être, mais j'ai l'impression que cette méthode impliquant la mise en place de nombreux .htaccess sera (encore) plus longue et / ou complexe à mettre en œuvre que l'écriture d'un robots.txt détaillé.



    Note:
    j'ai utilisé le test proposé dans le fichier robots.txt de Joomla. Il refuse catégoriquement tous les Allow alors que le test GWT les autorise. Dans le doute, je ne les utilise pas.
    Le test que tu évoques (http://tool.motoricerca.info/robots-checker.phtml) signale que Allow: n'est pas standard, ce qui est vrai. Cependant, Allow: est reconnu par Google, donc par les Google WT. Or c'est le sujet de ce fil de discussion : quel fichier robots.txt pour permettre à Google de vérifier la compatibilité des pages d'un site avec les appareils mobiles ?

    Malgré son titre, « New Robots.txt Syntax Checker: a validator for robots.txt files », cette page de test ne semble d'ailleurs pas bien à jour puisque un clic sur 'Robots Exclusion Standard for more information' dans les résultats du test comme dans sa page initiale aboutit à http://www.robotstxt.org/wc/norobots.html, une page qui n'existe plus. Quant aux 'Nouvelles Fraîches' ('Notizie fresche') du site motoricerca.info datent du 2 Avril... 2005 :-\

    A ce que je vois, la documentation http://robots-txt.com est nettement plus à jour. Or ce site signale que la directive Allow:, comme la directive Sitemap:, est maintenant reconnue par la plupart des moteurs de recherche : Google, mais aussi Bing / MSN, Yahoo, Yandex... (http://robots-txt.com/ressources/robots-txt-allow).


    Cela renforce mon approche qui est d'interdire et non d'autoriser, ce que met d'ailleurs Google en encadré au début de cette page : https://support.google.com/webmaster...c=6061961&rd=1
    Oui, mais la directive Allow: est présentée, si ce n'est préconisée, dès la page suivante : https://support.google.com/webmaster..._topic=6061961.

    _______________________

    En résumé je vois 2 questions :

    1. Quelles ressources faut-il bloquer, étant entendu qu'un blocage signifie ici seulement une préconisation de non indexation — et non pas une protection / une mesure de sécurité.
    2. A efficacité comparable, la meilleure méthode pour ce faire est-elle la plus rapide ou la plus simple à mettre en œuvre ? Si oui, la méthode consistant à déposer des .htaccess dans les dossiers qu'on ne veut pas voir indexés est-elle la plus rapide ou la plus simple ?
    Dernière édition par PhilJ à 06/08/2015, 09h14

    Laisser un commentaire:


  • lomart
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Les dossiers qui devraient normalement être toujours interdits sont :
    /administrator/
    /cache/
    /cli/
    /includes/
    /installation/
    /language/
    /libraries/
    /logs/
    /tmp/
    J'autoriserais /cache. Je connais au moins une extension qui l'utilise pour créer un dossier CSS avec de vrais morceaux de css à l'intérieur.

    Pour les dossiers components, modules et plugins : j'autoriserais globalement

    Donc mon robots.txt serait :
    Code:
    User-agent: *
    Disallow: /administrator/
    Disallow: /bin/
    Disallow: /cli/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /layouts/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /tmp/
    Sitemap: http://lesite.fr/sitemap.xml
    Ensuite, il faut mettre des .htaccess pour vraiment bloquer les endroits interdits

    Note:
    j'ai utilisé le test proposé dans le fichier robots.txt de Joomla. Il refuse catégoriquement tous les Allow alors que le test GWT les autorise. Dans le doute, je ne les utilise pas.

    Cela renforce mon approche qui est d'interdire et non d'autoriser, ce que met d'ailleurs Google en encadré au début de cette page : https://support.google.com/webmaster...c=6061961&rd=1

    Envoyé par Google
    Vous n'avez besoin d'un fichier robots.txt que si votre site présente du contenu que vous ne souhaitez pas voir indexé par Google ou par d'autres moteurs de recherche.

    Laisser un commentaire:


  • PhilJ
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Envoyé par lomart Voir le message
    Tout à fait, mais au lieu de réfléchir à ce que l'on doit autoriser, il serait plus simple de chercher, 'presque' une bonne foi pour toutes, les endroits où le bot ne doit pas fourrer ses pinces.
    Et comme cela, on a un robots.txt bon pour le service sans modifs. Et si on met en place une extension ayant des choses à cacher, il suffit de l'ajouter !
    Oui, c'est une façon d'envisager le sujet qui paraît correcte.

    Les dossiers qui devraient normalement être toujours interdits sont :
    /administrator/
    /cache/
    /cli/
    /includes/
    /installation/
    /language/
    /libraries/
    /logs/
    /tmp/

    Cependant, les questions se poseront toujours au cas par cas pour les dossiers :
    /components/
    /modules/
    /plugins/

    Pour ceux-là je ne vois pas bien comment il pourrait exister une version du robots.txt valable universellement et une bonne fois pour toutes car chaque site est différent :-\

    Laisser un commentaire:


  • lomart
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Oui. Mais au fond c'est ce que l'on met en place avec des Disallow: et Allow:
    Tout à fait, mais au lieu de réfléchir à ce que l'on doit autoriser, il serait plus simple de chercher, 'presque' une bonne foi pour toutes, les endroits où le bot ne doit pas fourrer ses pinces.
    Et comme cela, on a un robots.txt bon pour le service sans modifs. Et si on met en place une extension ayant des choses à cacher, il suffit de l'ajouter !

    Laisser un commentaire:


  • PhilJ
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Envoyé par lomart Voir le message
    Il sait très bien le faire sans ce fichier puisque Googlebot se plaint de ne pas pouvoir accéder aux dossiers où il se trouvent. De plus, cela me semble être plus la fonction du sitemap.
    ...ou d'un .htaccess, etc.


    Donc, on pourrait imaginer un robots.txt où tout est permis sauf ce qui est interdit
    Oui. Mais au fond c'est ce que l'on met en place avec des Disallow: et Allow:

    Laisser un commentaire:


  • lomart
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Très juste. Il sert seulement à indiquer aux moteurs de recherche quels fichiers indexer
    Il sait très bien le faire sans ce fichier puisque Googlebot se plaint de ne pas pouvoir accéder aux dossiers où il se trouvent. De plus, cela me semble être plus la fonction du sitemap.

    et quels fichiers ne pas indexer.
    Là, c'est intéressant !
    Donc, on pourrait imaginer un robots.txt où tout est permis sauf ce qui est interdit

    Laisser un commentaire:


  • PhilJ
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Envoyé par manu93fr Voir le message
    Il (= le fichier robots.txt) ne sert pas a "cacher" quoi que ce soit ... a mon avis
    Très juste. Il sert seulement à indiquer aux moteurs de recherche quels fichiers indexer et quels fichiers ne pas indexer. Mais il ne permet pas de dissimuler ceux dont on demande que l'indexation soit bloquée.

    Laisser un commentaire:


  • PhilJ
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    @lomart : pas une question idiote du tout, sauf que comme on peut le voir avec l'exemple des fichiers bloqués de la page d'accueil du site de Florence (liste des bloqués ci-dessus : http://forum.joomla.fr/showthread.ph...=1#post1070484), ce ne serait pas une bonne idée de bloquer sans nuances l'accès à tous les fichiers des dossiers /component/ et /modules/.

    A noter enfin : dans certains cas, l'expérience montre qu'il faut aussi débloquer certains fichiers qui se trouvent dans /plugins/.
    Dernière édition par PhilJ à 05/08/2015, 17h19

    Laisser un commentaire:


  • manu93fr
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Bonjour,
    il me semble qu'il evite aux moteurs de recherche (les gentils moteurs) d'indexer des urls qui n'ont pas lieu d'etre ... ou qui ne serait pas pertinentes
    En gros on leur dit "pas la peine d'aller par là ... aucun interet"

    Il ne sert pas a "cacher" quoi que ce soit ... a mon avis

    Laisser un commentaire:


  • lomart
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Question idiote

    Et si on autorisait (presque) tout au Googlebot par un

    Code:
    User-agent: Googlebot
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /cli/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /modules/
    Disallow: /plugins/
    
    User-agent: *
    le robots.txt de base de Joomla
    Quels seraient les inconvénients, sachant que tout le monde peut lire ce fichier et voir ce que l'on veut cacher ?

    et même d'une façon encore plus générale : quel est l'intérêt de ce fichier, hormis donner l'adresse du sitemap ?

    Laisser un commentaire:


  • PhilJ
    a répondu
    Bonjour,


    Envoyé par FlodAriege Voir le message
    Ah ouais... quand même ! Si en plus les GWT ne voient pas tout de suite les corrections, j'ai intérêt à réfléchir pour trouver un moyen d'établir une liste sans doublons de toutes les ressources bloquées sur toutes les pages de mon site. Parce que si je corrige celle de la page d'accueil d'abord, puis que je demande celles qui sont bloquées sur la page trumuche, je risque de me retrouver à devoir vérifier a mano que je ne travaille pas deux fois la même chose (bah oui parce qu'à raison de 40 petites choses par page, ça risque de me prendre bien plus qu'un weekend ).

    ...Oui. C'est pourquoi j'ai conseillé de prendre le temps d'une première étape consistant à identifier les types de pages plutôt que les pages :
    1. Faire l'inventaire des types de pages du site.

    Par exemple, sur un site de e-commerce (ou de la même façon sur un site de type catalogue de produits sans vente en ligne), les pages du composant e-commerce (ou catalogue) sont principalement de 2 types : (1) les pages listant les produits d'une catégorie, et (2) les pages produits. Il peut y avoir 100 catégories et sous-catégories et 10.000 produits, cela fera toujours 2 types de pages, pas davantage.

    Il est évident que ces deux types de pages sont à traiter avec soin du point de vue de la compatibilité avec les appareils mobiles, et qu'il ne suffit donc pas d'assurer du succès du test Google Mobile avec la seule page d'accueil du site.

    Paradoxalement, sur un simple site vitrine, les types de pages peuvent être plus nombreuses qu'on ne l'imagine d'abord. Par exemple, la page d'accueil est presque toujours un type de page à elle toute seule (notamment parce qu'elle mobilise des modules qui ne sont pas présents sur les autres pages — typiquement un diaporama). Idem pour la page de contact (du fait du formulaire de contact). Ordinairement, un site vitrine comporte ainsi entre 3 et 5 types de pages, même alors que le nombre total de pages n'excède pas les 10 pages. Mais ce nombre reste souvent stable au-delà, même si le site comporte 40 ou 50 pages.

    En résumé, si on ne prend pas la peine et le temps de faire cet inventaire des types de pages, on s'expose à une sous-indexation (sur appareils mobiles) d'un certain nombre de pages du site et / ou à des rappels incessants de Google et donc à des correctifs nombreux, c'est-à-dire en définitive à une perte de temps substantielle. Donc il vaut vraiment mieux commencer par cette étape — qui n'est d'ailleurs pas si longue quand on a soi-même construit le site.


    Amicalement,



    PhilJ

    Laisser un commentaire:


  • FlodAriege
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Ah ouais... quand même !
    Si en plus les GWT ne voient pas tout de suite les corrections, j'ai intérêt à réfléchir pour trouver un moyen d'établir une liste sans doublons de toutes les ressources bloquées sur toutes les pages de mon site.
    Parce que si je corrige celle de la page d'accueil d'abord, puis que je demande celles qui sont bloquées sur la page trumuche, je risque de me retrouver à devoir vérifier a mano que je ne travaille pas deux fois la même chose (bah oui parce qu'à raison de 40 petites choses par page, ça risque de me prendre bien plus qu'un weekend ).
    Un petit passage par excel devrait pouvoir m'aider.
    Merci encore pour la précision de tes conseils et explications. Je me sens seule maintenant que je sais que tout le monde reçoit cette alerte
    Bonne journée !

    Laisser un commentaire:

Annonce

Réduire
Aucune annonce pour le moment.

Partenaire de l'association

Réduire

Hébergeur Web PlanetHoster
Travaille ...
X