Fichier robots.txt incorrect

Réduire
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • [Problème] Fichier robots.txt incorrect

    Mon environnement : J 3.9.11

    Bonjour,

    Qui pourrait me dire pourquoi Google me dit que mon fichier "robots.txt" est incorrect, prétextant que tout le monde doit pouvoir tout voir ?

    Code:
    Sitemap : https://www.url de mon site/sitemap.xml
    User-agent: *
    Disallow: /administrator/
    Disallow: /bin/
    Disallow: /cache/
    Disallow: /cli/
    Disallow: /components/
    Disallow: /component/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /layouts/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /tmp/
    Disallow: /page-404
    Allow: /modules/mod_popupaholic/js/jquery-cookie.min.js
    Allow: /modules/mod_popupaholic/js/jquery.gafancybox-media.min.js
    Allow: /modules/mod_popupaholic/js/jquery.gafancybox.min.js
    Allow: /modules/mod_popupaholic/js/jquery.popup.js
    Allow: /modules/mod_popupaholic/js/popper.js
    Allow: /modules/mod_s5_tellafriend/tmpl/tellafriendpopup.php?ml=1&iframe=1
    Allow: /component/osmap/?view=html&id=2
    Avec mes remerciements.

  • #2
    Bonjour,

    Tout ce qui est "allow" doit précéder "disallow".
    Pour le plan de se site, il est à mon avis plus simple de mettre l'adresse du plan XML, sous forme "Sitemap: https://mon_adresse_de_plan.xml"
    "Patience et longueur de temps font plus que force ni que rage..." (La Fontaine : Le Lion et le Rat) - "Il n'y a pas de problèmes; il n'y a que des solutions" (André Gide).
    MoovJla et LazyDbBackup sur www.joomxtensions.com - FaQ sur www.fontanil.info - Site pro : www.robertg-conseil.fr chez PHPNET, sites perso chez PlanetHoster + sites gérés chez PHPNET, PlanetHoster, Ionos et OVH

    Commentaire


    • #3
      Envoyé par RobertG Voir le message
      Bonjour,

      Tout ce qui est "allow" doit précéder "disallow".
      Pour le plan de se site, il est à mon avis plus simple de mettre l'adresse du plan XML, sous forme "Sitemap: https://mon_adresse_de_plan.xml"
      Bonjour RobertG,

      1. ok pour l'ordre,
      2. pour mon sitemap, c'est mon ordre n°1, en tête du fichier robots.txt. Mais dans la dernière ligne, c'est l'url d'affichage du "plan de site" en mode texte sur le site.

      Et cerise sur le gâteau, je découvre ce matin que l'analyse de tous mes "liens intérieurs" débouche sur un code 500 !
      Ce ne serait pas un problème propre au serveur ?

      Commentaire


      • #4
        Ta dernière ligne n'a à mon avis pas de raison d'être, puisque c'est une adresse, qui, si elle est fonctionnelle sur le site, n'a pas de raison d'être bloquée par défaut (et donc à autoriser) par ce fichier robots.txt

        Les erreurs 500 sont a priori provoquées par des instructions dans le fichier .htaccess : il faudrait vérifier de nouveau après ab=voir désactivé ce fichier (ou utilisé les instructions de celui par défaut).
        "Patience et longueur de temps font plus que force ni que rage..." (La Fontaine : Le Lion et le Rat) - "Il n'y a pas de problèmes; il n'y a que des solutions" (André Gide).
        MoovJla et LazyDbBackup sur www.joomxtensions.com - FaQ sur www.fontanil.info - Site pro : www.robertg-conseil.fr chez PHPNET, sites perso chez PlanetHoster + sites gérés chez PHPNET, PlanetHoster, Ionos et OVH

        Commentaire


        • #5
          Une horreur !
          J'ai apporté les modifs suivantes :
          1. dans robots.txt, j'ai bien placé les commandes "disallow" après les "allows",
          2. pour les erreurs 500, ne trouvant pas la raison en analysant mon .htaccess : je l'ai effacé, remis un fichier standard, réinstallé aesecure

          Et quand j'analyse mon site :
          1. on me dit que mon fichier robots.txt est incorrect, avec le message :
          Code:
            L'utilisation du masquage est une infraction aux recommandations de Google puisque l'usager ne reçoit pas de résultats attendus.
          
          Sur votre site vous avez le contenu avec lesquels les systèmes de recherche peuvent avoir de problèmes (JavaScript, les images, Flash etc), lisez les [URL="https://support.google.com/webmasters/answer/66355?hl=fr"]recommandations de Google[/URL].
            Nous vérifions votre page avec Googlebot. Le nombre de tous les liens doit être le même pour tous les agents des utilisateurs.
          2. j'ai toujours les mêmes code 500 pour toutes les urls du site !

          J'avoue ne pas comprendre.
          Dernière édition par Visiteur à 20/09/2019, 18h16

          Commentaire


          • #6
            Bonjour,

            Quelques conseils... : Laisser le fichier robots.txt d'origine

            1. Evitez d'ajouter des "allow"....
            Utilisez à la place, jch optimize ou une extension équivalente (il existe des plugins gratuits sur la JED) pour eviter d'avoir à charger des fichiers js et css dans les modules.
            Cela permet de corriger ce gros problème d'optimisation lié à ces extensions. En effet, le repertoire modules doit rester en disallow pour ne pas être indexé, les fichiers javascript et css
            sont dans media qui est autorisé à l'indexation par défaut. Il vaut mieux eviter d'indiquer l'usage d'une extension ou autre pour des raisons de sécurité.

            Le but de JCH, c'est à la fois de lier les fichiers ensemble pour un chargement plus rapide mais aussi de stocker dans un sous-repertoire de media (media/plg_jchoptimize/cache).
            Les liens d'origine sont simplement interceptés et désactivés (sans toucher au code des extensions) et remplacés par les liens de ces fichiers "optimisés" js et css.

            2. Redirigez l'url du plan de site
            Comme indiqué par Simon Kloostra, un spécialiste SEO sous Joomla qui conseille de rediriger le lien osmap (ou autre extension sitemap) à la racine.
            Pour cela, il suffit d'ajouter la ligne suivante dans le htaccess
            RewriteRule ^sitemap.xml$ index.php?option=com_osmap&view=xml&tmpl=component &id=1 [L]

            Source (en français) : https://alphadesign.fr/joomla/checkl...temap-xml.html
            Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

            Commentaire


            • #7
              Merci beaucoup Daneel. Je vais essayer d’appliquer ces conseils. J’avoue être un tantinet découragé devant tant de complications cumulées.

              Commentaire


              • #8
                Envoyé par lendrevi Voir le message
                Merci beaucoup Daneel. Je vais essayer d’appliquer ces conseils. J’avoue être un tantinet découragé devant tant de complications cumulées.
                Oui je comprends, parfois je déprime sur le travail à accomplir et le manque de temps (certains clients ne comprennent pas forcément la nécessité de travailler sur ces "détails"). J'ai bon espoir que les indications et l'aide que l'on donne sur ce forum peuvent encore servir

                J'ai tout de même une petite question sur le disalow sur la page 404. Je ne comprends pas de bloquer l'indexation sachant que l'on gère différemment les erreurs 404. L'indication dans le fichier robots.txt ne fait que bloquer l'accès au contenu de l'url vers nomdetonsite.fr/page-404 , c'est comme bloquer une autre page comme la page d’identification ou d'enregistrement ou une page quelconque. Sauf pour une raison précise, je te conseille de ne pas conserver cette ligne qui ne fait pas partie du modèle de fichiers robots proposés par Joomla.

                Le principe de gestion des erreurs 404, c'est la redirection : on peut rediriger une url tombant en erreur vers la nouvelle url si on a corrigé par exemple l'alias alors que la page est déjà publiée et indexé par le moteur de recherche. Cela peut se faire par l'écriture de la redirection dans le fichier htaccess ou plus facilement depuis le composant de redirection. Enfin, la solution radicale dans le cas d'un changement de cms ou de site, c'est de rediriger toutes les erreurs 404 sur la page d'accueil (on peut également le faire via le fichier htaccess).... C'est brutal mais très mauvais pour le référencement car on perd tout le bénéfice des années précédentes et on repart à zéro (peut être pire si aucun travail sur le SEO).

                Dernière édition par daneel à 20/09/2019, 18h43
                Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

                Commentaire


                • #9
                  Ce disallow sur la page 404 est placé ici parce que j’ai pris le parti de gérer de telles erreurs directement depuis le template (cf. error.php avec une surcharge). J’obtiens ainsi une gestion moins brutale et plus conviviale pour l’utilisateur.
                  Mais en fait, je n’en ai peut-être pas besoin pour autant. Je vais tester.
                  J’apprécie beaucoup tes conseils éclairés et fort bien explicités. Encore merci et bon week-end à toi.

                  ps: tu peux tester ma gestion des pages 404 en utilisant une adresse erronée telle que :
                  https://www.rendez-vous-medecine.com/xxx
                  Je pense que la page d'erreur que j'affiche au client est plus agréable que la norme. En outre, je lui permets de s'en sortir proprement (ex: retour à la page d'accueil), et d'informer l'administrateur (ce qui peut être bien utile pour entretenir le site).
                  Dernière édition par Visiteur à 21/09/2019, 05h21

                  Commentaire

                  Annonce

                  Réduire
                  Aucune annonce pour le moment.

                  Partenaire de l'association

                  Réduire

                  Hébergeur Web PlanetHoster
                  Travaille ...
                  X