URL bloquées par fichier robots.txt

Réduire
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • [Problème] URL bloquées par fichier robots.txt

    Premier problème de ce genre
    Google me dit que le fichier robots.txt bloque des URL !
    N'aynt rien trouvé de spécial dans mon fichier robots.txt, je l'ai supprimé !
    Google me dit toujours que le fichier robots bloque l'accès aux URL !
    J'ai vérifié les meta, elles indiquent bien index, follow !
    Je pédale dans la semoule !
    A titre indicatif, voici l'URL du site en question (encore en construction):


    Si quelqu'un peut me mettre sur une piste, ce serait sympa
    Merci d'avance

  • #2
    Re : URL bloquées par fichier robots.txt

    Bonjour

    As-tu testé la validité de ton fichier robots.txt car là, il ne me paraît pas correct.
    Essaie ce site de Google : https://www.google.com/webmasters/to...s-testing-tool
    ou encore http://www.alterlinks.com/robots-txt-validator/

    Note: tu as un paquet de Disallow alors même que tu semble dire avoir tout autorisé.
    Christophe (cavo789)
    Mon blog, on y parle Docker, PHP, WSL, Markdown et plein d'autres choses : https://www.avonture.be
    Logiciel gratuit de scan antivirus : https://github.com/cavo789/aesecure_quickscan (plus de 45.000 virus détectés, 700.000 fichiers sur liste blanche)​

    Commentaire


    • #3
      Re : URL bloquées par fichier robots.txt

      Il est possible qu'une version en cache de ce fichier soit toujours prise en compte.
      Renomme le fichier robots.txt.dist en robots.txt : a priori les versions récentes (pour Joomla! 3) ne bloquent plus l'accès à certains dossiers/fichiers que veut voir l'outil de validation.
      "Patience et longueur de temps font plus que force ni que rage..." (La Fontaine : Le Lion et le Rat) - "Il n'y a pas de problèmes; il n'y a que des solutions" (André Gide).
      MoovJla et LazyDbBackup sur www.joomxtensions.com - FaQ sur www.fontanil.info - Site pro : www.robertg-conseil.fr chez PHPNET, sites perso chez PlanetHoster + sites gérés chez PHPNET, PlanetHoster, Ionos et OVH

      Commentaire


      • #4
        Re : URL bloquées par fichier robots.txt

        J'avais, de toutes facos, créé un fichier robots.txt a la place du fichier d'origine
        Ensuite, j'ai supprimé le fichier robots.txt.. et google me dit toujours que ce fameux fichier bloque les URL
        Et, dans le moteur de recherche, google me dit que la page index est bloquée, mais il m'indexe d'autres pages !

        Commentaire


        • #5
          Re : URL bloquées par fichier robots.txt

          J'avais, de toutes facos, créé un fichier robots.txt a la place du fichier d'origine
          oui mais si c'est celui que je vois sur ton site ... il contient un tas d'erreur !!!
          Ce fichier a beau etre un simple fichier texte ... il doit suivre une syntaxe bien particulière
          Tapes robots.txt dans Google et tu auras des tutos pour cette syntaxe ...
          Ce forum, vous l'aimez ? il vous a sauvé la vie ? Vous y apprenez chaque jour ? Alors adhérez à l'AFUJ https://www.joomla.fr/association/adherer
          Cette année, le JoomlaDay FR a lieu à Bruxelles, les 20 et 21 mai 2022, plus d'infos et inscriptions : www.joomladay.fr

          Commentaire


          • #6
            Re : URL bloquées par fichier robots.txt

            @Manu : j'ai proposé deux liens dans ma première réponse mais Brienois semble ne pas en vouloir ;-) Le second lien que je propose indique en effet plusieurs erreurs.
            Christophe (cavo789)
            Mon blog, on y parle Docker, PHP, WSL, Markdown et plein d'autres choses : https://www.avonture.be
            Logiciel gratuit de scan antivirus : https://github.com/cavo789/aesecure_quickscan (plus de 45.000 virus détectés, 700.000 fichiers sur liste blanche)​

            Commentaire


            • #7
              Re : URL bloquées par fichier robots.txt

              @cavo .... oui j'avais vu ... le 2eme lien est top !
              Ce forum, vous l'aimez ? il vous a sauvé la vie ? Vous y apprenez chaque jour ? Alors adhérez à l'AFUJ https://www.joomla.fr/association/adherer
              Cette année, le JoomlaDay FR a lieu à Bruxelles, les 20 et 21 mai 2022, plus d'infos et inscriptions : www.joomladay.fr

              Commentaire


              • #8
                Re : URL bloquées par fichier robots.txt

                Envoyé par cavo789 Voir le message
                @Manu : j'ai proposé deux liens dans ma première réponse mais Brienois semble ne pas en vouloir ;-) Le second lien que je propose indique en effet plusieurs erreurs.
                Je ne rois ps avoir dit que je ne voulais pas regarder ce lien. Simplement, j'ai travaillé sur d'autre sites entre temps.
                Cela dit, j'ai fait les modifs grace à ce second lien qui m'a fait supprimer plein de disallow.
                Je crains juste avoir donné trop d'autorisations...

                Cela dit, Google me dit toujours la même chose: url bloquées a cause de robots!
                Pourtant, lorsque l'on analyse url par url, il me répond que la visite est autorisée !
                Je vais attendre deux ou trois jours pour voir s'il m'indexe la page d'accueil sans ajouter qu'il ne peut lire le contenu par suite du fichier robots.

                Commentaire


                • #9
                  Re : URL bloquées par fichier robots.txt

                  Bonjour,


                  Cela dit, Google me dit toujours la même chose: url bloquées a cause de robots!
                  url bloquées à cause du robots.txt : ça, ça m'étonnerait ! De manière purement étymologique, bloquer des urls est le rôle du fichier .htaccess

                  Si par bloquer des urls, tu entends ce que les webmaster tools (GWT pour les intimes) listent dans la rubrique Index Google > Ressources bloquées, ce ne sont pas du tout des urls bloquées, mais des urls qui ne sont pas parcourues en totalité du fait de fichiers inclus dans les dites urls et qui ne sont pas accessibles au fameux fichier robots.txt. Ce qui n'est pas du tout la même chose ! Ces urls seront bien indexées normalement, mais ne bénéficieront pas du label : compatible mobile car pas accessibles au robots.txt de Google en totalité.

                  Car il faut savoir d'abord et en premier lieu que cette rubrique a été ajoutée par Google pour le passage (au mois de Mai de cette année) à la fameuse rubrique concernant les sites mobiles (ou pas) et que cela a donné lieu à l'époque à un sacré ménage dans les sites pour avoir accès à ce fameux tampon : mobile compliant.

                  Il semble que depuis le soufflé soit un peu retombé et que les GWT (Google Webmaster Tools) ne mette pant vraiment souvent à jour cette fameuse liste des urls ayant des fichiers inaccessibles. Déjà même en pleine période de mobile compliant en Avril Mai, tout le monde se plaignait que cette liste ne bougeait pas souvent, c'est dire. Alors 6 mois après : beuuurrrk :

                  Si tu veux te rassurer sur cette fameuse liste, à partir de GWT la manipulation à faire est la suivante :

                  1) A partir de Index Google > Ressources bloquées cliquer sur le nom de hôte ayant des pages affectées (moi il me reste 396 pages affectées : une paille !)

                  2) Sur le premier (il faut bien commencer quelque part) de la liste, effectuer également un clic (gauche) : on obtient alors une page qui liste les urls faisant référence à cette ressources et qui commence par : Ressources > bloquées > url du site > composant bloqué (chez moi pour cette première ressource : c'est /components/com_seoglossary/assets/css/style.css), copier en le sélectionnant le nom de cette ressource.

                  3) Dans un autre onglet (il va falloir faire la manip plusieurs fois alors autant se simplifier la vie) : ouvrir GWT à l'emplacement : Exploration > Outil de test du fichier robots.txt (première url proposée par Christophe ci-dessus) et dans la zone prévue à cet effet, coller le nom de la ressource sauvegarder au §2 ci-dessus. Cliquer sur le bouton (Tester en bas à droite)

                  4) Constater le résultat, chez moi, c'est en vert (donc non bloqué, et ce depuis au moins le mois de Juin), si c'est en rouge, il faut débloquer la ressource. Comment faire ? extrêmement simple, les lignes au dessus sont celles de votre fichier robots.txt, celle qui bloque est marquée en rouge. Vous pouvez modifier le contenu d'une ligne, créer de nouvelles lignes (là où vous voulez), en supprimer etc etc.. et à nouveau cliquer sur Tester jusqu'à être satisfait du résultat. Il ne reste plus qu'à recommencer jusqu'à ne plus avoir de ressources bloquées (ou être totalement sûre que Google ne met plus sa liste à jour et s'en satisfaire !)

                  ATTENTION : modifier le contenu du fichier robots.txt dans la rubrique Exploration > Outil de test du fichier robots.txt ne met pas à jour le fichier robots.txt de votre site de production, même si c'est bien celui-ci qui est chargé et affiché par les GWT (avec environ 24h de retard sur les modifications apportées sur votre site de production)

                  Voilà et surtout ne pas confondre les implications de bloquer des urls avec le .htaccess et autoriser (ou pas) l'accès aux fichiers et ressources par les robots.txt. Comme on dit : c'est pas le même cierge qui coule (/private joke)

                  Cordialement
                  Dernière édition par PieceOfCake à 13/11/2015, 08h44
                  Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

                  Commentaire


                  • #10
                    Re : URL bloquées par fichier robots.txt

                    bonjour
                    j'ai le même problème d'URL bloquées par fichier robots.txt avec GWT
                    j'ai suivi à la lettre les explications de PieceOfCake §2 et §3 ,sauf GWT bloque toujours ma ressource Je crois avoir compromis mais je ne sais pas comment résoudre le problème avec le robots.txt.
                    Exemple : parmi le nombreuses ressources bloquées par GWT j'ai celle-ci :

                    /modules/mod_jbgmusic/images/play_bn.png

                    Avec GWT dans Exploration > Outil de test du fichier robots.txt , dans la zone prévue à cet effet, j'ai collé le nom de la ressource sauvegarder modules/mod_jbgmusic/images/play_bn.png
                    Cliqué sur le bouton Tester en bas à droite , résultats, bloqué
                    Dans le robots txt j'ai la ligne : Disallow: /modules/ en surbrillance en rouge.

                    Effectivement j'ai interdis avec le code "Disallow" de parcourir le dossier modules . Ma question ; est comment autoriser la ligne actuellement bloquée tout en interdisant l’accès à d’autres ressources pour GWT
                    Merci pour l'aide
                    - Terre de l'encens d'Oman
                    - Aventures du Globetrotter

                    Commentaire


                    • #11
                      Re : URL bloquées par fichier robots.txt

                      Bonjour

                      Je réponds vite fait sans tester :

                      Allow: /modules/mod_jbgmusic/images/

                      L'idée : tu interdis tout /modules et juste, en-dessous, tu crées une exception pour ce module-là.

                      (Note : le programmeur n'a pas respecté les standards Joomla; tout qui est des médias (images, css & js) devrait se trouver dans /media)
                      Christophe (cavo789)
                      Mon blog, on y parle Docker, PHP, WSL, Markdown et plein d'autres choses : https://www.avonture.be
                      Logiciel gratuit de scan antivirus : https://github.com/cavo789/aesecure_quickscan (plus de 45.000 virus détectés, 700.000 fichiers sur liste blanche)​

                      Commentaire


                      • #12
                        Re : URL bloquées par fichier robots.txt

                        Christophe
                        je viens d'essayer la manip ,est GWT autorise la ressources
                        je vais attendre que GWT actualise l'ensemble des corrections que je vais apporter dans le robots.txt
                        Merci
                        - Terre de l'encens d'Oman
                        - Aventures du Globetrotter

                        Commentaire


                        • #13
                          Re : URL bloquées par fichier robots.txt

                          Attention : les lignes "Allow" doivent précéder les lignes "Disallow".
                          "Patience et longueur de temps font plus que force ni que rage..." (La Fontaine : Le Lion et le Rat) - "Il n'y a pas de problèmes; il n'y a que des solutions" (André Gide).
                          MoovJla et LazyDbBackup sur www.joomxtensions.com - FaQ sur www.fontanil.info - Site pro : www.robertg-conseil.fr chez PHPNET, sites perso chez PlanetHoster + sites gérés chez PHPNET, PlanetHoster, Ionos et OVH

                          Commentaire


                          • #14
                            Re : URL bloquées par fichier robots.txt

                            dans ce cas quel est la meilleure rédaction du robots.txt ??

                            1)
                            Allow: /cache/template/respxxx-tables-398e588b.css
                            Allow: /components/xxxxxxx/assets/js/sexypolling.js?version=2.0.1-pro
                            Allow: /components/xxxxxxx/assets/css/
                            Allow: /components/xxxxxxxx/assets/images/
                            Allow: /modules/mod_jbgmusic/images/
                            Allow: /plugins/system/jxxxxxxxx/assets/xxxxxx/images/icons-32/
                            Disallow: /administrator/
                            Disallow: /bin/
                            Disallow: /cli/
                            Disallow: /components/
                            Disallow: /includes/
                            Disallow: /modules/

                            OU

                            2)
                            Disallow: /components/
                            Allow: /components/xxxxxxx/plugins/photogallery/1004(2)/css/images/
                            Allow: /components/xxxxx/assets/js/xxxxxling.js?version=2.0.1-pro
                            Allow: /components/com_xxxxxx/assets/css/
                            Allow: /components/com_xxxxx/assets/images/
                            Disallow: /includes/
                            Disallow: /modules/
                            Allow: /modules/mod_jbgmusic/images/
                            Disallow: /plugins/
                            Allow: /plugins/system/xxxxx/assets/xxxxx/images/icons-32/
                            etc....
                            Dernière édition par nickg à 27/11/2015, 15h57
                            - Terre de l'encens d'Oman
                            - Aventures du Globetrotter

                            Commentaire


                            • #15
                              Re : URL bloquées par fichier robots.txt

                              n’ayant pas de réponse j'en déduit qu'il n'y a pas d’importance
                              non?
                              - Terre de l'encens d'Oman
                              - Aventures du Globetrotter

                              Commentaire

                              Annonce

                              Réduire
                              Aucune annonce pour le moment.

                              Partenaire de l'association

                              Réduire

                              Hébergeur Web PlanetHoster
                              Travaille ...
                              X