Problème de parsing Google

Réduire
Ce sujet est fermé.
X
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • [RÉGLÉ] Problème de parsing Google

    Il m'arrive un drôle de truc depuis quelques temps, que je n'arrive pas à expliquer. Problème à double facette en fait :

    1er temps.

    Je constate dans GWT un paquet d'anomalies (plus de 100) du jour au lendemain, et je reçois un eMail du type :
    Googlebot for smartphones found an increase in “page not found” errors on http://www.guerrier-celeste.fr/
    When your site was crawled by Googlebot for smartphones, we detected a significant increase in the number of URLs that return an HTTP 404 (page not found) errors. These errors may prevent Google from showing content on those pages in search results for smartphones. While it's not necessary to fix these issues, your smartphone users will be happier if they don't land on an error page.
    Coup d'oeil sur la partie Erreurs d'exploration je trouve une bonne centaine de lignes composées de :
    http://www. guerrier-celeste.fr/images/GC/Progresser/vesspyr/illumination_oracurune_laire.png"
    toutes référencées (page referrer) sur des pages .feed comme :
    http://www. guerrier-celeste.fr/51-expertise.feed?type=atom
    Evidemment quand on regarde dans ces pages, on ne trouve rien du tout l'url d'image en question est codée correctement par exemple dans ce cas précis on trouve :
    <p><img class="zoom" style="margin-right: 10px; margin-left: 20px; vertical-align: middle;" src="http://www. guerrier-celeste.fr/images/GC/Progresser/vesspyr/illumination_oracurune_laire.png"alt="il lumination oracurune laire" width="200" height="256" /></p>
    <p style="text-align: center;">Diminution des coûts de mana du groupe</p>
    et donc bien en fin d'url un .png; (donc &quot qui semble doublement décodé.

    Comme je voulais pas me battre avec Google bot et que finalement les .feed ne me chagrine pas plus que celà, j'ai rajouté dans mon fichier robots.txt :
    Noindex: /*.feed?type=rss
    Noindex: /*.feed?type=atom
    Ce qui semble avoir fonctionné quelques temps

    deuxième époque :

    Au bout d'une dizaine de jours, j'ai à nouveau ces messages d'erreurs qui réapparaissent alors que j'ai demandé l'abandon de l'indexation des url .feed

    Qu'ais je fait de travers ?

    Quelqu'un a t il déjà eu ce genre de problème avec des fichiers images sortant des erreurs dans des .feed ou .rss sur le crawling de Google ?

    Merci de vos réponses
    Dernière édition par PieceOfCake à 22/08/2014, 13h30
    Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

  • #2
    Re : Problème de parsing Google

    Tu n'a aucun intérêt de laisser Google indexer les pages feed. Donc, une solution serait d'ajouter cette ligne dans ton robots.txt:

    Disallow: /*feed?type

    Si tu interdis l'accès du bot Google sur ce genre de pages, les erreurs que tu reçois maintenant vont disparaître.

    Commentaire


    • #3
      Re : Problème de parsing Google

      Merci de ta réponse,

      J'ai eu des soucis avec l'édition du message (partiel la première fois), donc le temps de le rééditer, tu pourras constater que j'ai déjà modifié mon fichier robots.txt il y a une dizaine de jours (environ) et que depuis ce matin, ça recommence
      Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

      Commentaire


      • #4
        Re : Problème de parsing Google

        Je doute que "Noindex" fonctionnerait dans le fichier robots.txt parce que le nom de la commande est "Disallow". Noindex c'ést le tag html qu'on peut utiliser dans un fichier html de genre:
        <meta name="robots" content="noindex, nofollow">.

        ps
        Dans le Webmaster Tools de Google il y a un nouvel util avec lequel on peut tester le fichier robots.txt

        Commentaire


        • #5
          Re : Problème de parsing Google

          En 2007, un internaute a découvert une directive "Noindex" non documentée mais supportée par Google. Ce "Noindex" dans le fichier robots.txt permet d'avoir le même effet que la balise meta robots noindex, c'est-à-dire interdire l'indexation d'un document.
          source : http://robots-txt.com/ressources/robots-txt-noindex/

          et il semble que ça a bien fonctionné pendant une dizaine de jours ...
          Nota : l'outil de GWT pour tester les fichiers robots.txt, ne teste que la syntaxe et uniquement la syntaxe.
          Je vais essayer avec disallow, je ne risque pas grand chose de toutes façons

          Cordialement
          Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

          Commentaire


          • #6
            Re : Problème de parsing Google

            De tout façon, "Noindex" n'est pas documentée, donc il vaudrait mieux essayer "Disallow". Noindex pourrait marcher car Google essaye toujours de corriger les erreurs qui se produisent souvent et s'ils ont observé que pas mal de gens utilisent "Noindex" au lieu de "Disallow", ils ont peut-être décidé de supporter cette commande aussi. Mais, étant une commande non-documentée, ils pourraient cesser de la soutenir à tout moment.

            Commentaire


            • #7
              Re : Problème de parsing Google

              Je suis tout à fait d'accord, je viens de mettre disallow à la place on verra demain

              merci de ta réponse

              je laisse le billet ouvert, je donnerai les suites

              cordialement
              Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

              Commentaire

              Annonce

              Réduire
              Aucune annonce pour le moment.

              Partenaire de l'association

              Réduire

              Hébergeur Web PlanetHoster
              Travaille ...
              X