Accès de Googlebot aux fichiers CSS et JS impossible sur le site

Réduire
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • #16
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Les dossiers qui devraient normalement être toujours interdits sont :
    /administrator/
    /cache/
    /cli/
    /includes/
    /installation/
    /language/
    /libraries/
    /logs/
    /tmp/
    J'autoriserais /cache. Je connais au moins une extension qui l'utilise pour créer un dossier CSS avec de vrais morceaux de css à l'intérieur.

    Pour les dossiers components, modules et plugins : j'autoriserais globalement

    Donc mon robots.txt serait :
    Code:
    User-agent: *
    Disallow: /administrator/
    Disallow: /bin/
    Disallow: /cli/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /layouts/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /tmp/
    Sitemap: http://lesite.fr/sitemap.xml
    Ensuite, il faut mettre des .htaccess pour vraiment bloquer les endroits interdits

    Note:
    j'ai utilisé le test proposé dans le fichier robots.txt de Joomla. Il refuse catégoriquement tous les Allow alors que le test GWT les autorise. Dans le doute, je ne les utilise pas.

    Cela renforce mon approche qui est d'interdire et non d'autoriser, ce que met d'ailleurs Google en encadré au début de cette page : https://support.google.com/webmaster...c=6061961&rd=1

    Envoyé par Google
    Vous n'avez besoin d'un fichier robots.txt que si votre site présente du contenu que vous ne souhaitez pas voir indexé par Google ou par d'autres moteurs de recherche.
    UP, le plugin universel à découvrir sur https//up.lomart.fr
    bgMax
    , AdminOrder, MetaData, Zoom, ArtPlug, Custom, Memo, Filter, ... sur http://lomart.fr/extensions

    Commentaire


    • #17
      Bonjour,


      Envoyé par lomart Voir le message
      J'autoriserais /cache. Je connais au moins une extension qui l'utilise pour créer un dossier CSS avec de vrais morceaux de css à l'intérieur.
      Oui.


      Pour les dossiers components, modules et plugins : j'autoriserais globalement
      Reste à voir ensuite comment bloquer certaines ressources présentes dans ces dossiers.


      Ensuite, il faut mettre des .htaccess pour vraiment bloquer les endroits interdits.
      Je me trompe peut-être, mais j'ai l'impression que cette méthode impliquant la mise en place de nombreux .htaccess sera (encore) plus longue et / ou complexe à mettre en œuvre que l'écriture d'un robots.txt détaillé.



      Note:
      j'ai utilisé le test proposé dans le fichier robots.txt de Joomla. Il refuse catégoriquement tous les Allow alors que le test GWT les autorise. Dans le doute, je ne les utilise pas.
      Le test que tu évoques (http://tool.motoricerca.info/robots-checker.phtml) signale que Allow: n'est pas standard, ce qui est vrai. Cependant, Allow: est reconnu par Google, donc par les Google WT. Or c'est le sujet de ce fil de discussion : quel fichier robots.txt pour permettre à Google de vérifier la compatibilité des pages d'un site avec les appareils mobiles ?

      Malgré son titre, « New Robots.txt Syntax Checker: a validator for robots.txt files », cette page de test ne semble d'ailleurs pas bien à jour puisque un clic sur 'Robots Exclusion Standard for more information' dans les résultats du test comme dans sa page initiale aboutit à http://www.robotstxt.org/wc/norobots.html, une page qui n'existe plus. Quant aux 'Nouvelles Fraîches' ('Notizie fresche') du site motoricerca.info datent du 2 Avril... 2005 :-\

      A ce que je vois, la documentation http://robots-txt.com est nettement plus à jour. Or ce site signale que la directive Allow:, comme la directive Sitemap:, est maintenant reconnue par la plupart des moteurs de recherche : Google, mais aussi Bing / MSN, Yahoo, Yandex... (http://robots-txt.com/ressources/robots-txt-allow).


      Cela renforce mon approche qui est d'interdire et non d'autoriser, ce que met d'ailleurs Google en encadré au début de cette page : https://support.google.com/webmaster...c=6061961&rd=1
      Oui, mais la directive Allow: est présentée, si ce n'est préconisée, dès la page suivante : https://support.google.com/webmaster..._topic=6061961.

      _______________________

      En résumé je vois 2 questions :

      1. Quelles ressources faut-il bloquer, étant entendu qu'un blocage signifie ici seulement une préconisation de non indexation — et non pas une protection / une mesure de sécurité.
      2. A efficacité comparable, la meilleure méthode pour ce faire est-elle la plus rapide ou la plus simple à mettre en œuvre ? Si oui, la méthode consistant à déposer des .htaccess dans les dossiers qu'on ne veut pas voir indexés est-elle la plus rapide ou la plus simple ?
      Dernière édition par PhilJ à 06/08/2015, 09h14
      Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

      Commentaire


      • #18
        Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

        Très bon résumé
        1 - Quelles ressources faut-il bloquer, étant entendu qu'un blocage signifie ici seulement une préconisation de non indexation — et non pas une protection / une mesure de sécurité.
        Le moins possible

        2 - A efficacité comparable, la meilleure méthode pour ce faire est-elle la plus rapide ou la plus simple à mettre en œuvre ? Si oui, la méthode consistant à déposer des .htaccess dans les dossiers qu'on ne veut pas voir indexés est-elle la plus rapide ou la plus simple ?
        Pour moi, on ne met un htaccess restrictif que si on a un impérieux besoin de bloquer réellement l'accès, donc très peu souvent

        Un autre avantage de cette méthode est qu'elle pourra, sans doute, supporter de futures exigences de Google sans modifs.
        UP, le plugin universel à découvrir sur https//up.lomart.fr
        bgMax
        , AdminOrder, MetaData, Zoom, ArtPlug, Custom, Memo, Filter, ... sur http://lomart.fr/extensions

        Commentaire


        • #19
          Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

          Envoyé par lomart Voir le message
          Le moins possible.

          Pour moi, on ne met un htaccess restrictif que si on a un impérieux besoin de bloquer réellement l'accès, donc très peu souvent.
          C'est à tester.

          En pratique :
          1. Sur un site Joomla 3.4.x standard, sans aucune extension, quels fichiers et quels dossiers bloquerais-tu ?
          2. Quelles instructions mettrais-tu dans les .htaccess en question ?
          Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

          Commentaire


          • #20
            Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

            1 - Sur un site Joomla 3.4.x standard, sans aucune extension, quels fichiers et quels dossiers bloquerais-tu ?
            Code:
            User-agent: *
            Disallow: /administrator/
            Disallow: /bin/
            Disallow: /cli/
            Disallow: /includes/
            Disallow: /installation/
            Disallow: /language/
            Disallow: /layouts/
            Disallow: /libraries/
            Disallow: /logs/
            Disallow: /tmp/
            Sitemap: http://lesite.fr/sitemap.xml
            Avec bien sur, une redirection dans le htaccess pour rendre disponible le sitemap disponible par http://lesite.fr/sitemap.xml à l'aide de :
            Code:
            RewriteCond %{REQUEST_URI} ^/sitemap.xml
            RewriteRule .* /index.php?option=com_xmap&view=xml&tmpl=component&id=1
            en adaptant ce code suivant l'extension de sitemap dont on dispose

            2 - Quelles instructions mettrais-tu dans les .htaccess en question ?
            une protection par mot de passe du dossier. Ce que sait très bien faire aesecure.
            Il faut toutefois tester que tous les composants que l'on utilise le supportent.
            UP, le plugin universel à découvrir sur https//up.lomart.fr
            bgMax
            , AdminOrder, MetaData, Zoom, ArtPlug, Custom, Memo, Filter, ... sur http://lomart.fr/extensions

            Commentaire


            • #21
              Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

              PhilJ :
              2 - Quelles instructions mettrais-tu dans les .htaccess en question ?

              une protection par mot de passe du dossier. Ce que sait très bien faire aesecure.
              Il faut toutefois tester que tous les composants que l'on utilise le supportent.
              Compris pour les dossiers, mais pour les fichiers ?

              Voir l'exemple déjà proposé ici : http://forum.joomla.fr/showthread.ph...=1#post1070484.

              Rappel de l'exemple :

              |_ dossier-x
              |_ fichier.php
              |_ index.html

              |_ dossier-x_css
              |_ dossier-x_images
              |_ dossier-x_js

              où l'on souhaite que les dossiers css, images et js soient indexés, mais pas les fichiers du dossier parent tels que fichier.php.
              Dernière édition par PhilJ à 06/08/2015, 17h20
              Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

              Commentaire


              • #22
                Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

                où l'on souhaite que les dossiers css, images et js soient indexés, mais pas les fichiers du dossier parent tels que fichier.php.
                Quel intérêt pour Google d'indexer des fichiers php qui ne produisent pas du contenu ?
                Avez-vous des exemples de fichiers php indexés par Google qui ne mériteraient pas de l'être. Je viens de faire des sondages dans les cinq milliards deux cent quatre-vingts millions de résultats à la requête Google "filetype: php" (supprimer l'espace), je n'en ai pas trouvé

                Et si vraiment, cela nous empêche de dormir, il est toujours possible de faire un :
                Disallow /dossier-x/*.php$

                Mon principe est j'autorise TOUT sauf ce que je ne veux pas.
                On connait les zones interdites de notre site alors qu'il est fastidieux de faire la liste des zones à autoriser
                Dernière édition par lomart à 06/08/2015, 18h21
                UP, le plugin universel à découvrir sur https//up.lomart.fr
                bgMax
                , AdminOrder, MetaData, Zoom, ArtPlug, Custom, Memo, Filter, ... sur http://lomart.fr/extensions

                Commentaire


                • #23
                  Envoyé par lomart Voir le message
                  Quel intérêt pour Google d'indexer des fichiers php [...] ?
                  Aucun, mais cette absence d'intérêt n'empêche pas l'indexation.


                  Avez-vous des exemples de fichiers php indexés par Google qui ne mériteraient pas de l'être. Je viens de faire des sondages dans les cinq milliards deux cent quatre-vingts millions de résultats à la requête Google "filetype: php" (supprimer l'espace), je n'en ai pas trouvé
                  Je comprends, mais un fichier .PHP peut générer du contenu. Encore que, c'est vrai, un fichier index.html vide est généralement présent pour empêcher l'indexation des .PHP situés dans les dossiers de Joomla, et qu'une instruction empêche souvent une exécution directe du fichier dès le début : <?php defined('_JEXEC') or die('Restricted access'); ?>.
                  Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

                  Commentaire


                  • #24
                    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

                    Aucun, mais cette absence d'intérêt n'empêche pas l'indexation.
                    Soit il indexe pour une raison louable pour notre référencement: dans ce cas, on est content.
                    Soit il le fait pour une raison inavouable: dans ce cas, il doit rigoler devant notre suggestion de ne pas entrer
                    UP, le plugin universel à découvrir sur https//up.lomart.fr
                    bgMax
                    , AdminOrder, MetaData, Zoom, ArtPlug, Custom, Memo, Filter, ... sur http://lomart.fr/extensions

                    Commentaire


                    • #25
                      Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

                      Envoyé par lomart Voir le message
                      Soit il indexe pour une raison louable pour notre référencement: dans ce cas, on est content.
                      Soit il le fait pour une raison inavouable: dans ce cas, il doit rigoler devant notre suggestion de ne pas entrer
                      Oui, enfin il n'est pas rare de voir des rognures de pages traîner dans l'index de Google.

                      Je pense que de toute façon surveiller l'indexation de près, surtout au début de la vie du site et après l'ajout d'extensions est une sage précaution.
                      Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

                      Commentaire


                      • #26
                        Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

                        Bonjour,

                        je viens mêler mon grain de sel en bout du bout, j'ai comme le sentiment que vous êtes légèrement parti en délirade là non ?

                        Sauf erreur de ma part (ça peut), les disallow - allow pour l'ergonomie mobile que demande Google ne visent pas à indexer les fichiers .js, .css, .php et autres encore, mais juste à pouvoir y accéder au moment de l'indexation des .html habituels à fin uniquement de pouvoir vérifier qu'ils sont conformes aux normes ou aux modèles que souhaitent voir Google fleurir sur nos écrans.

                        Je ne pense pas avoir jamais vu écrit nulle part que ces fichiers sont indexés (et donc stockés : sinon bonjour le problème de gestion de version) et donc stockés quelque part par Google ou bien me trompé je ?
                        Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

                        Commentaire


                        • #27
                          Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

                          Sauf erreur de ma part (ça peut), les disallow - allow pour l'ergonomie mobile que demande Google ne visent pas à indexer les fichiers .js, .css, .php et autres encore, mais juste à pouvoir y accéder au moment de l'indexation des .html habituels à fin uniquement de pouvoir vérifier qu'ils sont conformes aux normes ou aux modèles que souhaitent voir Google fleurir sur nos écrans.

                          Je ne pense pas avoir jamais vu écrit nulle part que ces fichiers sont indexés (et donc stockés : sinon bonjour le problème de gestion de version) et donc stockés quelque part par Google ou bien me trompé je ?
                          +1
                          C'est bien pour cela que je dis "arrêtons la parano" et facilitons le travail de Google en lui ouvrant toutes les portes sauf les petits recoins vraiment secrets
                          UP, le plugin universel à découvrir sur https//up.lomart.fr
                          bgMax
                          , AdminOrder, MetaData, Zoom, ArtPlug, Custom, Memo, Filter, ... sur http://lomart.fr/extensions

                          Commentaire


                          • #28
                            Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

                            Envoyé par PieceOfCake Voir le message
                            Bonjour,

                            je viens mêler mon grain de sel en bout du bout, j'ai comme le sentiment que vous êtes légèrement parti en délirade là non ?

                            Sauf erreur de ma part (ça peut), les disallow - allow pour l'ergonomie mobile que demande Google ne visent pas à indexer les fichiers .js, .css, .php et autres encore, mais juste à pouvoir y accéder au moment de l'indexation des .html habituels à fin uniquement de pouvoir vérifier qu'ils sont conformes aux normes ou aux modèles que souhaitent voir Google fleurir sur nos écrans.

                            Je ne pense pas avoir jamais vu écrit nulle part que ces fichiers sont indexés (et donc stockés : sinon bonjour le problème de gestion de version) et donc stockés quelque part par Google ou bien me trompé je ?
                            Tu ne te trompes pas, et je n'ai pas le sentiment d'avoir évoqué une bien inutile (et peut-être même, comme tu l'écris, improbable) indexation des fichiers .js et .css, qui ne sont que des outils pour l'affichage et / ou le fonctionnement des pages.

                            En revanche, la question se pose bien pour les images et pour les fichiers .php, car si on autorise Google le glouton à accéder à ces fichiers, il peut très bien les ajouter à son index.

                            Toutefois, comme je l'écrivais précédemment, le cas est probablement différent pour les images et pour les .php, l'accès à ces derniers étant normalement protégé.
                            Dernière édition par PhilJ à 06/08/2015, 21h30
                            Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

                            Commentaire


                            • #29
                              Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

                              Envoyé par lomart Voir le message
                              [...] il est fastidieux de faire la liste des zones à autoriser
                              Ce n'est si laborieux en réalité : je viens de le faire en ajoutant quelques lignes au fichier robots.txt d'un site vitrine dont les seules particularités sont un module affichant un diaporama d'accueil + un module affichant un formulaire en page de contact. Montre en main : 1/2 heure, temps pris pour faire les tests de compatibilité inclus pour m'assurer que plus aucune ressource n'empêche Google de vérifier que le site est bien compatible avec les smartphones.
                              Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

                              Commentaire


                              • #30
                                Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

                                Envoyé par PhilJ Voir le message
                                Tu ne te trompes pas, et je n'ai pas le sentiment d'avoir évoqué une bien inutile (et peut-être même, comme tu l'écris, improbable) indexation des fichiers .js et .css, qui ne sont que des outils pour l'affichage et / ou le fonctionnement des pages.

                                En revanche, la question se pose bien pour les images et pour les fichiers .php, car si on autorise Google le glouton à accéder à ces fichiers, il peut très bien les ajouter à son index.

                                Toutefois, comme je l'écrivais précédemment, le cas est probablement différent pour les images et pour les .php, l'accès à ces derniers étant normalement protégé.
                                S'il ne s'agit que de ça alors, il est probable que la solution évoquée ci-après devrait résoudre ton problèem : https://dj-extensions.com/blog/gener...mpaign=default

                                Personnellement je préfère continuer à agir au cas par cas, mais cette solution semble la moins pire des vite fait ( ... bien fait)
                                Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

                                Commentaire

                                Annonce

                                Réduire
                                Aucune annonce pour le moment.

                                Partenaire de l'association

                                Réduire

                                Hébergeur Web PlanetHoster
                                Travaille ...
                                X