Problème Google entre robots.txt & sitemap.xml

Réduire
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • [Problème] Problème Google entre robots.txt & sitemap.xml

    Bonjour,
    Pour une url donnée, je me heurte au refus systématique de Google d'indexer une page pourtant bien présente dans mon sitemap.
    Voici le contenu de mon fichier robots.txt :

    Code:
    Sitemap: https://www.rendez-vous-medecine.com/sitemap.xml
    User-agent: *
    Disallow: /administrator/
    Disallow: /bin/
    Disallow: /cache/
    Disallow: /cli/
    Disallow: /components/
    Disallow: /component/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /layouts/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /tmp/
    Allow: /*.js?*
    [COLOR=#FF0000]Allow: /component/osmap/?view=html&id=2[/COLOR]
    Allow: /modules/mod_s5_tellafriend/tmpl/tellafriendpopup.php?ml=1&iframe=1
    Allow: /component/users/?view=registration
    Allow: /component/users/?view=remind
    Allow: /component/users/?view=reset
    Allow: /component/users/?view=login
    Et dans mon sitemap, je demande -entre autres- l'indexation de l'url :

    Code:
    ...
    [COLOR=#FF0000]https://www.rendez-vous-medecine.com/component/osmap/?view=html&id=2[/COLOR]
    [COLOR=#000000]...[/COLOR]
    ... en accord avec mon second ordre "allow" de mon fichier robots.txt (ici en rouge). Cette url correspond à l'affichage du Plan de site généré par l'extension "osmap"..

    Question : où est mon erreur ?
    Merci à vous.

  • #2
    Bonjour

    A ma connaissance, "Allow" doit toujours précéder "Disallow", et il n'est pas utile d'autoriser un tel accès à OSmap, sans compter qu'il est préférable de donner aux moteurs d'indexation un plan XML ("Sitemap: https://www.rendez-vous-medecine.com...t/osmap/?view= etc.), ce qui n'empêche pas d'avoir une page HTML de plan dans le site.
    "Patience et longueur de temps font plus que force ni que rage..." (La Fontaine : Le Lion et le Rat) - "Il n'y a pas de problèmes; il n'y a que des solutions" (André Gide).
    MoovJla et LazyDbBackup sur www.joomxtensions.com - FaQ sur www.fontanil.info - Site pro : www.robertg-conseil.fr chez PHPNET, sites perso chez PlanetHoster + sites gérés chez PHPNET, PlanetHoster, Ionos et OVH

    Commentaire


    • #3
      Envoyé par RobertG Voir le message
      Bonjour

      Merci RobertG.
      A ma connaissance, "Allow" doit toujours précéder "Disallow", et il n'est pas utile d'autoriser un tel accès à OSmap, sans compter qu'il est préférable de donner aux moteurs d'indexation un plan XML ("Sitemap: https://www.rendez-vous-medecine.com...t/osmap/?view= etc.), ce qui n'empêche pas d'avoir une page HTML de plan dans le site.
      Je suis complètement perdu avec cette histoire de Googlebot.
      Que je place mes ordres "allow" avant les "disallow", ou inversement, le problème signalé par Google dans ma Search Console est strictement le même.
      À l'origine de mon sitemap, je n'avais pas demandé l'indexation de cette url : mais Google râlait. Je l'ai donc ajouté. Ensuite, il m'a alors reproché de bloquer l'accès à cette url dans mon fichier robots.txt. J'ai alors ajouté l'ordre "allow" pour cette url ... et il râle toujours !

      ps: je ne comprends pas bien ta remarque "... il est préférable de donner aux moteurs d'indexation un plan XML..." : mais j'ai bien un fichier sitemap.xml à la racine, et il est bien en 1ère position dans mon fichier robots.txt
      Dernière édition par Visiteur à 29/10/2019, 09h22

      Commentaire


      • #4
        Bonsoir,
        tu es surtout perdu car tu ne connais pas bien la syntaxe du fichier robots.txt
        regarde par ici : https://www.rankspirit.com/frobots

        Je ne comprends pas bien tes allow, en général, c'est a éviter, les étoiles aussi sont a éviter
        Les bots par défaut scrollent tous sauf les parties disallow définies dans ce fichier robots.txt
        si après tu veux absolument qu'ils suivent une url spécifique, il vaut mieux le plan xml du sitemap quitte a faire des liens cachés pour l'utilisateur mais par pour les robots justement ...

        Perso je mettrait ta ligne de sitemap a la fin de ton fichier ... en plus il sera derrière un user-agent ... et non devant
        Ce forum, vous l'aimez ? il vous a sauvé la vie ? Vous y apprenez chaque jour ? Alors adhérez à l'AFUJ https://www.joomla.fr/association/adherer
        Cette année, le JoomlaDay FR a lieu à Bruxelles, les 20 et 21 mai 2022, plus d'infos et inscriptions : www.joomladay.fr

        Commentaire


        • #5
          Envoyé par manu93fr Voir le message
          Bonsoir,
          tu es surtout perdu car tu ne connais pas bien la syntaxe du fichier robots.txt
          regarde par ici : https://www.rankspirit.com/frobots

          Je ne comprends pas bien tes allow, en général, c'est a éviter, les étoiles aussi sont a éviter
          Les bots par défaut scrollent tous sauf les parties disallow définies dans ce fichier robots.txt
          si après tu veux absolument qu'ils suivent une url spécifique, il vaut mieux le plan xml du sitemap quitte a faire des liens cachés pour l'utilisateur mais par pour les robots justement ...

          Perso je mettrait ta ligne de sitemap a la fin de ton fichier ... en plus il sera derrière un user-agent ... et non devant
          Bonjour Manu,
          Je te remercie pour ces bons conseils, et notamment pour ton lien éclairant la syntaxe à bien utiliser. Je te concède humblement que je ne suis nullement spécialiste de l'écriture de ce type de fichier !
          À propos de ton étonnement sur l'emploi des ordres "allow" dans mon fichier "robots.txt", voici un exemple d'explication:
          J'utilise un module tiers "tellafriend" qui permet par un popup d'envoyer le lien de la page consultée à n amis avec un commentaire. J'ai donc créé un lien de menu qui active l'url correspondante, et j'ai ajouté cette url dans mon fichier "sitemap;xml". Mais comme mon fichier "robots.txt" comprend l'ordre
          Code:
          Disallow: /modules/
          , je suis bien contraint à autoriser les robots à voir au moins la partie du module référencé dans le sitemap : d'où la présence de l'ordre complémentaire
          Code:
          Allow: /modules/mod_s5_tellafriend/tmpl/tellafriendpopup.php?ml=1&iframe=1
          Je viens d'appliquer tes conseils. Que penses-tu, stp, de cette nouvelle version de mon fichier "robots.txt" ?
          Code:
          User-agent: Googlebot
          Allow: .js?
          Allow: /component/osmap/?view=html&id=2
          Allow: /modules/mod_s5_tellafriend/tmpl/tellafriendpopup.php?ml=1&iframe=1
          Allow: /component/users/?view=registration
          Allow: /component/users/?view=remind
          Allow: /component/users/?view=reset
          Allow: /component/users/?view=login
          User-agent: *
          Disallow: /administrator/
          Disallow: /bin/
          Disallow: /cache/
          Disallow: /cli/
          Disallow: /components/
          Disallow: /component/
          Disallow: /includes/
          Disallow: /installation/
          Disallow: /language/
          Disallow: /layouts/
          Disallow: /libraries/
          Disallow: /logs/
          Disallow: /modules/
          Disallow: /plugins/
          Disallow: /tmp/
          Sitemap: https://www.rendez-vous-medecine.com/sitemap.xml

          Commentaire

          Annonce

          Réduire
          Aucune annonce pour le moment.

          Partenaire de l'association

          Réduire

          Hébergeur Web PlanetHoster
          Travaille ...
          X