Accès de Googlebot aux fichiers CSS et JS impossible sur le site

Réduire
X
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • #46
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    En faisant une recherche sur le site d'aide de Google
    (ici : https://support.google.com/webmaster.../6066468?hl=fr )
    je lis que les fichiers dont les URL sont momentanément indisponibles ... :


    Exploration

    1) L'outil Explorer comme Google ne peut actuellement pas explorer votre URL, car le temps de réponse du serveur a été trop long.

    OU

    2) L'outil Explorer comme Google a annulé votre exploration, car le serveur a reçu trop de requêtes consécutives pour différentes URL.

    Remarques et étapes suivantes :

    Sachez que l'URL n'est pas inaccessible pour tous nos services ; seul l'outil de simulation Explorer comme Google ne peut pas y accéder


    Ca confirme donc mon pressentiment que si ce n'est pas "bloqué", alors tout va bien.
    Flo, Ariège

    Il n'y a que celui qui a honte d'apprendre qui a peur de demander

    Commentaire


    • #47
      Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

      Ca confirme donc mon pressentiment que si ce n'est pas "bloqué", alors tout va bien.
      Je ne crois vraiment pas qu'on puisse en conclure cela, car si, pour une raison ou pour une autre, certaines ressources sont momentanément inaccessibles aux outils de test de Google, les scripts Google ne renvoient pas d'information sur leur statut bloquées ou débloquées (par un robots.txt ou un .htaccess). Ils signalent alors seulement qu'ils ne sont pas parvenus à une inspection complète des ressources utilisées pour l'affichage de la page testée.
      Dernière édition par PhilJ à 10/08/2015, 19h17
      Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

      Commentaire


      • #48
        Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

        Bonjour,

        Pour info,

        https://github.com/joomla/joomla-cms/pull/7681

        Pe7er (Peter Martin) propose d'ajouter les lignes suivantes au fichier robots.txt

        Code:
        User-Agent: Googlebot
        Allow: .js
        Allow: .css
        Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

        Commentaire


        • #49
          Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

          Envoyé par daneel Voir le message
          Bonjour,

          Pour info,

          https://github.com/joomla/joomla-cms/pull/7681

          Pe7er (Peter Martin) propose d'ajouter les lignes suivantes au fichier robots.txt

          Code:
          User-Agent: Googlebot
          Allow: .js
          Allow: .css
          Exact c'était l'objet du post #30 dans ce fil (comme le temps passe !)
          Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

          Commentaire


          • #50
            Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

            Envoyé par PieceOfCake Voir le message
            Exact c'était l'objet du post #30 dans ce fil (comme le temps passe !)
            A quoi j'avais ajouté (post # 31) la suggestion de mettre aussi (sauf exceptions) ces 3 autres directives générales :
            Allow: *.gif
            Allow: *.jpg
            Allow: *.png

            de façon à permettre à Google d'évaluer au mieux l'affichage en tenant compte aussi des images (http://forum.joomla.fr/showthread.ph...=1#post1070871).
            Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

            Commentaire


            • #51
              Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

              oui et tu pouvais même faire l'économie des * le robots.txt acceptant très bien un
              Allow: .gif

              Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

              Commentaire


              • #52
                Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

                Envoyé par PieceOfCake Voir le message
                oui et tu pouvais même faire l'économie des * le robots.txt acceptant très bien un
                Allow: .gif
                ...Exact. C'était pour voir si tu suivais .

                Sinon, voici ce que dit un intervenant sur github à propos des fichiers .PHP (https://github.com/joomla/joomla-cms/pull/6839) :
                PHP files in Joomla, including extensions on the JED, have a defined('_JEXEC') or die statement that prevents the contents of the file being exposed. Even if Google were to find it, the contents would be completely blank and they wouldn't index it.

                That being said, if it's desired to not allow the indexing of php files, a derivative of the following could be used: Disallow: /*.php$

                ...précaution à vrai dire nécessaire seulement dans l'hypothèse où l'exécution directe d'un script PHP ne serait pas empêchée par une instruction defined('_JEXEC') or die.
                Dernière édition par PhilJ à 11/08/2015, 19h33
                Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

                Commentaire


                • #53
                  Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

                  Envoyé par PieceOfCake Voir le message
                  oui et tu pouvais même faire l'économie des * le robots.txt acceptant très bien un
                  Allow: .gif

                  oui merci, cela répond à mon interrogation...

                  Et question *, j'ai trouvé cette solution sur un autre forum :

                  Code:
                  .... User-agent: * Allow: /**/gzip.php?*$ Allow: /**/*.css?*$ Allow: /**/*.js?*$ Allow: /**/*.css$ Allow: /**/*.js$ Disallow: /administrator/ ....
                  Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

                  Commentaire


                  • #54
                    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

                    Bonjour,


                    Envoyé par daneel Voir le message
                    Et question *, j'ai trouvé cette solution sur un autre forum :

                    Code:
                    .... User-agent: * Allow: /**/gzip.php?*$ ....

                    J'avoue ne pas comprendre la signification du double astérisque :-\
                    Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

                    Commentaire


                    • #55
                      Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

                      Envoyé par PhilJ Voir le message
                      Bonjour,





                      J'avoue ne pas comprendre la signification du double astérisque :-\
                      Moi non plus, je pense qu'il s'agit d'une erreur l'anti slash escape le premier * astérisque : OK si l'idée était de filtrer avec une expression régulière sur la base de */gzip.php suivi (ou pas) de paramètres passés (?*) jusqu'à la fin de la ligne (de l'url en l'occurrence) alors la bonne syntaxe serait (à mon humble avis) :

                      /*//gzip/.php/?*$

                      avec la décomposition suivante :
                      /* = *
                      // = /
                      /. = . (le dot remplace n'importe quel caractère dans une expression régulière pas seulement le point)
                      /? = ? (idem le point d'interrogation remplace le ou les caractères précédents en signalant qu'il est (ou ils sont) présent une fois ou zéro fois en l'occurrence php? match à la fois ph et php mais en aucun cas le symbole ? séparateur des querystrings dans l'url)

                      dans les lignes suivantes à la suite de .css et .js j'avoue que je ne vois pas l'utilité du ?

                      quelque chose m'échappe
                      Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

                      Commentaire


                      • #56
                        Bonjour,


                        Envoyé par PieceOfCake Voir le message
                        [...] l'anti slash escape le premier * astérisque : OK si l'idée était de filtrer avec une expression régulière [...]
                        Là je crois bien que tu surestimes grandement la subtilité de la syntaxe de robots.txt, laquelle est ultra basique et ignore totalement les expressions dites régulières. En particulier elle ignore l'échappement, et le point d'interrogation signifie tout bêtement... point d'interrogation.

                        Par exemple j'ai ceci dans le code source d'un site de e-commerce : /media/com_hikashop/js/hikashop.js?v=250 (v=250 signifiant en fait version 2.5.0). En l'occurrence aucune directive particulière n'est à ajouter au robots.txt dans la mesure où j'autorise Google à regarder partout dans le dossier /media/. Mais supposons que ce ne soit pas le cas pour les besoins de l'explication. Alors une instruction pour cibler ce type d'URL serait .js?*. Si au contraire on voulait cibler spécifiquement les fichiers JS ne comportant pas de point d'interrogation (ie : les fichiers JS sans paramètre-s), on écrirait plutôt .js$, le $ signifiant tout simplement « à la fin » : cette syntaxe restrictive ciblerait alors tous les fichiers JS, sauf ceux ne se terminant pas par .js.
                        Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

                        Commentaire


                        • #57
                          Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

                          Oui tu as sans doute raison, me suis un peu enflammé là !
                          on trouve quand même ceci dans les commentaires de Google lui-même :

                          Regular Expressions are not allowed in robots.txt, but Googlebot (and some other robots) can understand some simple pattern matching:
                          Say if you wanted to block all URLs that have a example any where in the URL, you can use a wild card entry *

                          User-agent: *
                          Disallow: /*example
                          You can also use the dollar sign $ to specify that the URLs must end that way. So if you wanted to block all URLs that end with example, but not URLs that had aexample elsewhere in the URL you could use:

                          User-agent: *
                          Disallow: /*example$
                          Dommage ça aurait pu être sympa
                          Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

                          Commentaire


                          • #58
                            Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

                            Envoyé par PieceOfCake Voir le message
                            Dommage ça aurait pu être sympa
                            En fait c'est sympa , du moins pour les signes * et $, car pour les ? rien à faire : dans le robots.txt ce sont toujours de simples points d'interrogation — typiquement utilisés pour introduire un passage de paramètres : ?parameter=value.

                            => Dans le robots.txt, ? n'est pas là pour remplacer un caractère quelconque (comme c'est le cas dans les expressions régulières) mais simplement pour cibler la présence d'un (bête) point d'interrogation. Référence : https://support.google.com/webmaster..._topic=6061961, § accessible depuis la ligne cliquable 'Pattern-matching rules to streamline your robots.txt code'.

                            ________________________

                            Reste la question de la compatibilité, et là c'est quasi aussi sympa.

                            En effet, on peut lire encore aujourd'hui que les wildcards (jokers symbolisés par un *) et autres $ ne sont pas standard, et donc (!?) qu'il ne faut pas les utiliser. Or ce sont 2 affirmations différentes : la signification de ces symboles n'est pas standard, c'est vrai, car le standard du robots.txt est vraiment minimaliste et n'a pratiquement pas évolué depuis les débuts du web. Mais la quasi totalité des moteurs de recherche en reconnaissent la signification. Voir la première phrase de http://robots-txt.com/ressources/robots-txt-wildcard/.

                            En tenant compte de cette indication, la question devient : quelle est la part de marché des principaux moteurs de recherche ?

                            => Prenons l'exemple de la France pour 2015 (source : http://gs.statcounter.com/#desktop-s...501-201507-bar) :
                            • Numéro 1, de très loin : Google, avec plus de 93 % des recherches moteur.
                            • Numéro 2 et numéro 3 sur le podium, évidemment très loin derrière Google : Yahoo et Bing, avec pour chacun ~ 3 % des recherches moteur.
                            • Tous les autres moteurs réunis cumulent moins de 0.5 % des recherches moteur.


                            Or les 3 premiers moteurs cités reconnaissent la signification de * et de $.

                            Donc, au pire, 0.5 % des moteurs de recherche utilisés en France ne reconnaissent pas la signification de * et de $ : lorsque Google écrit que « Googlebot (and some other robots) can understand some simple pattern matching », il faut comprendre que au moins 99.5 % des recherches se font avec des moteurs qui reconnaissent parfaitement ces directives non standard.

                            On peut donc utiliser les signes * et $ dans le robots.txt sans plus se poser la question de savoir s'ils sont ou non standard .
                            Dernière édition par PhilJ à 12/08/2015, 17h42
                            Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

                            Commentaire


                            • #59
                              Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

                              Pfff....
                              ... soit Google n'en fait qu'à sa tête,
                              ... soit je suis aveugle et je ne vois pas mon erreur dans mon robots.

                              Sinon, pourquoi, alors que j'ai une ligne qui dit :
                              Disallow: /site_content/tags.html*

                              Quand je teste une URL comme :
                              /si​te_​con​ten​t/t​ags​.ht​ml?​id=​124​&st​art​=10
                              dans l'outil de test du robots.txt

                              le résultat pour cette URL est :
                              "autorisée"

                              ???

                              Est-ce que c'est une histoire de ? ou de * ou autre signe cabalistique ?
                              (j'espère que non les gars, paske je vous ai complètement perdus dans la fin de ce thread...)

                              Merci
                              Flo, Ariège

                              Il n'y a que celui qui a honte d'apprendre qui a peur de demander

                              Commentaire


                              • #60
                                Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

                                Envoyé par FlodAriege Voir le message
                                [...] pourquoi, alors que j'ai une ligne qui dit :
                                Disallow: /site_content/tags.html*

                                Quand je teste une URL comme :
                                /si​te_​con​ten​t/t​ags​.ht​ml?​id=​124​&st​art​=10
                                dans l'outil de test du robots.txt

                                le résultat pour cette URL est :
                                "autorisée"

                                ???
                                A tester :

                                Disallow: /site_content/tags.html?id=*&start=*

                                ou même plus court :

                                Disallow: /site_content/tags.html?*
                                Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

                                Commentaire

                                Annonce

                                Réduire
                                1 sur 2 < >

                                C'est [Réglé] et on n'en parle plus ?

                                A quoi ça sert ?
                                La mention [Réglé] permet aux visiteurs d'identifier rapidement les messages qui ont trouvé une solution.

                                Merci donc d'utiliser cette fonctionnalité afin de faciliter la navigation et la recherche d'informations de tous sur le forum.

                                Si vous deviez oublier de porter cette mention, nous nous permettrons de le faire à votre place... mais seulement une fois
                                Comment ajouter la mention [Réglé] à votre discussion ?
                                1 - Aller sur votre discussion et éditer votre premier message :


                                2 - Cliquer sur la liste déroulante Préfixe.

                                3 - Choisir le préfixe [Réglé].


                                4 - Et voilà… votre discussion est désormais identifiée comme réglée.

                                2 sur 2 < >

                                Assistance au forum - Outil de publication d'infos de votre site

                                Compatibilité: PHP 4.1,PHP4, 5, 6DEV MySQL 3.2 - 5.5 MySQLi from 4.1 ( @ >=PHP 4.4.9)

                                Support Version de Joomla! : | J!3.0 | J!2.5.xx | J!1.7.xx | J!1.6.xx | J1.5.xx | J!1.0.xx |

                                Version française (FR) D'autres versions sont disponibles depuis la version originale de FPA

                                UTILISER À VOS PROPRES RISQUES :
                                L'exactitude et l'exhaustivité de ce script ainsi que la documentation ne sont pas garanties et aucune responsabilité ne sera acceptée pour tout dommage, questions ou confusion provoquée par l'utilisation de ce script.

                                Problèmes connus :
                                FPA n'est actuellement pas compatible avec des sites Joomla qui ont eu leur fichier configuration.php déplacé en dehors du répertoire public_html.

                                Installation :

                                1. Téléchargez l'archive souhaitée : http://afuj.github.io/FPA/

                                Archive zip : https://github.com/AFUJ/FPA/zipball/master

                                2. Décompressez le fichier de package téléchargé sur votre propre ordinateur (à l'aide de WinZip ou d'un outil de décompression natif).

                                3. Lisez le fichier LISEZMOI inclus pour toutes les notes de versions spécifiques.

                                4. LIRE le fichier de documentation inclus pour obtenir des instructions d'utilisation détaillées.

                                5. Téléchargez le script fpa-fr.php à la racine de votre site Joomla!. C'est l'endroit que vous avez installé Joomla et ce n'est pas la racine principale de votre serveur. Voir les exemples ci-dessous.

                                6. Exécutez le script via votre navigateur en tapant: http:// www. votresite .com/ fpa-fr.php
                                et remplacer www. votresite .com par votre nom de domaine


                                Exemples:
                                Joomla! est installé dans votre répertoire web et vous avez installé la version française du fichier FPA:
                                Télécharger le script fpa-fr.php dans: /public_html/
                                Pour executer le script: http://www..com/fpa-fr.php

                                Joomla! est installé dans un sous-répertoire nommé "cms" et vous avez installé la version française du fichier FPA:
                                Télécharger le script fpa-fr.php dans: /public_html/cms/
                                Pour executer le script: http://www..com/cms/fpa-fr.php

                                En raison de la nature très sensible de l'information affichée par le script FPA, il doit être retiré immédiatement du serveur après son utilisation.

                                Pour supprimer le script de votre site, utilisez le lien de script de suppression fourni en haut de la page du script. Si le lien de suppression échoue pour supprimer le script, utilisez votre programme FTP pour le supprimer manuellement ou changer le nom une fois que le script a généré les données du site et le message publié sur le forum. Si le script est toujours présent sur le site, il peut être utilisé pour recueillir suffisamment d'informations pour pirater votre site. Le retrait du script empêche des étrangers de l'utiliser pour jeter un oeil à la façon dont votre site est structuré et de détecter les défauts qui peuvent être utilisé à vos dépends.
                                Voir plus
                                Voir moins

                                Partenaire de l'association

                                Réduire

                                Hébergeur Web PlanetHoster
                                Travaille ...
                                X