Page supprimée - introuvable par GWT

Réduire
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • Page supprimée - introuvable par GWT

    Bonjour,

    Depuis quelque temps j'ai un soucis avec GWT.
    Il m'indique des erreurs URL introuvables à répétitions.
    En fait j'avais supprimé il y a un moment plusieurs pages, mais GWT continue à croire qu'elle existe, et me met une erreur 404 car il ne peut y accéder.
    J'ai déjà fait "marquer comme corrigé", mais çà revient ...
    Je comprend juste pas comment il peut continuer à les chercher, sachant qu'elles n'apparaissent plus dans les résultats de recherche depuis un moment, que mon sitemap ne les mentionne bien sûr pas, et l'onglet "URL à supprimer" indique "obsolète" la ligne correspondant à la page que j'avais fais retiré à l'époque.

    Du coup je fais comment maintenant, pour éviter qu'on me signale des URL introuvables à répétitions ?

    Cordialement

  • #2
    Re : Page supprimée - introuvable par GWT

    Bonsoir,


    Envoyé par lautgedacht Voir le message
    Depuis quelque temps j'ai un soucis avec GWT. Il m'indique des erreurs URL introuvables à répétitions. En fait j'avais supprimé il y a un moment plusieurs pages, mais GWT continue à croire qu'elle existe, et me met une erreur 404 car il ne peut y accéder. J'ai déjà fait "marquer comme corrigé", mais çà revient... [...] Du coup je fais comment maintenant, pour éviter qu'on me signale des URL introuvables à répétitions ?
    Dans ce cas il faut faire une enquête extragooglesque (<= nouveau mot, inventé juste à l'instant pour les besoins de la cause ).

    Vous pouvez pour cela utiliser XENU (pour Windows, à télécharger ici : http://home.snafu.de/tilman/xenulink.html).

    XENU est un redoutable chercheur de liens morts. Il sait les dénicher même sur des sites que l'on croit indemne de toute erreur. Il vous dira ce qu'il en est, et, s'il trouve des pages en erreur 404, il vous signalera les pages contenant les liens erronés trouvés. A vous ensuite de corriger ces erreurs, s'il s'en trouve effectivement...


    Cordialement,



    PhilJ
    Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

    Commentaire


    • #3
      Re : Page supprimée - introuvable par GWT

      bonjour PhilJ, nous avons déjà eu affaire ensemble (http://forum.joomla.fr/showthread.ph...our-un-article)

      je vois que vous jurer toujours que par Xenu :-) pour ma part je possède toujours Integrity (l'équivalent Mac) depuis votre conseil

      pour le coup çà ne m'aide pas, car les liens morts signalés par google, ne sont pas détectés par Integrity ...

      il s'agit entre autres de "/pains" et "/riz"

      Commentaire


      • #4
        Re : Page supprimée - introuvable par GWT

        Envoyé par lautgedacht Voir le message
        bonjour PhilJ, nous avons déjà eu affaire ensemble (http://forum.joomla.fr/showthread.ph...our-un-article).
        Ah oui, en effet !


        je vois que vous jurer toujours que par Xenu :-) pour ma part je possède toujours Integrity (l'équivalent Mac) depuis votre conseil
        C'est que je n'ai pas les moyens de me fournir en Pommes .


        pour le coup çà ne m'aide pas, car les liens morts signalés par google, ne sont pas détectés par Integrity...
        Si comme je le crois le site est lamaisondelinde.fr, alors : XENU ne trouve aucune erreur lui non plus.


        il s'agit entre autres de "/pains" et "/riz"
        Je ne vois qu'une seule explication : Google pense qu'aucun des plats du restaurant ne saurait se dispenser d'un accompagnement de pain et / ou de riz .

        Sérieusement : si vous ne voyez pas d'erreurs, si Integrity n'en voit pas non plus, et Xenu non plus, si de plus les pages dont les liens sont signalés en erreur n'apparaissent pas dans les SERP, alors il ne vous reste plus qu'à vous dire que Google met du temps à nettoyer son index — ou bien qu'il est devenu fou, mais cette seconde hypothèse est moins vraisemblable que la première :-)

        De toute façon, ce phénomène est sans gravité, d'autant que les pages ne sont manifestement plus dans l'index. Par exemple, une requête telle que "lamaisondelinde.fr" pains (avec les guillemets) dans Google ne donne pas de résultats.

        Dernière hypothèse : les pages /pains et /riz sont référencées sur d'autres sites. Les pages tierces continuant de pointer sur les pages supprimées de votre côté pourraient déclencher des erreurs. En principe, vous devriez pouvoir voir cela dans les GWT. Si cette ultime hypothèse se confirme, il est évident que vous n'y pouvez pas grand chose.



        Cordialement,



        PhilJ
        Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

        Commentaire


        • #5
          Re : Page supprimée - introuvable par GWT

          effectivement j'étais conscient que ce n'était pas très grave en soit, mais c'est embêtant d'avoir toujours les erreurs qui reviennent, surtout que je ne comprenais pas d'où il les retrouve, alors que çà doit faire 6 mois que les pages en question ont été supprimées ... du coup effectivement Google doit pas être très rapide

          je ne pense pas que d'autres sites référencent les pages, je verrai çà comment dans GWT ?
          pour info il m'inque qu'il y a 22 pages indexées pour 13 dans les résultats de recherche, c'est normal ?

          Commentaire


          • #6
            Re : Page supprimée - introuvable par GWT

            Envoyé par lautgedacht Voir le message
            effectivement Google doit pas être très rapide.
            Plus exactement, les résultats de recherche sont obtenus à la vitesse de l'éclair, mais l'indexation et la désindexation peuvent prendre du temps. Il arrive aussi qu'une page soit repérée mais pas encore indexée. Si, pendant cet intervalle de temps, qui peut être assez long, vous supprimez cette page repérée-pas-encore-indexée, Google cherche à l'indexer et, ce qui est normal, ne la trouve pas. Une erreur est alors signalée (les GWT indiquent « Code de réponse 404 »), alors qu'en réalité il n'y a pas d'erreur.


            je ne pense pas que d'autres sites référencent les pages, je verrai çà comment dans GWT ?
            Exploration > Erreurs d'exploration, puis cliquer l'URL de la page dont le Code de réponse est 404, puis cliquer l'onglet 'Référencée sur' dans la fenêtre qui s'ouvre en modal.


            il y a 22 pages indexées pour 13 dans les résultats de recherche, c'est normal ?
            Le site a en effet 13 pages en tout et pour tout. Les 13 sont bien présentes dans l'index consultable depuis le moteur, et pas une de plus. Donc tout va bien :-)

            Ne vous souciez pas des 9 autres, ou alors marquez-les à nouveau comme supprimées, mais si vous faites cela, dites-vous que la régularisation pourra prendre du temps, et que ces pages risquent de réapparaître en erreur. Ce n'est pas du tout un problème.
            Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

            Commentaire


            • #7
              Re : Page supprimée - introuvable par GWT

              Bonjour,

              j'ai ces soucis depuis toujours avec Google Web Tools de même qu'avec Bing , bien que ce ne soit écrit et codifié nulle part, je suis persuadé que Google, Bing et les autres continuent à garder les urls en erreur après suppression dans un cache longue durée et que leurs algorythmes les fait 'relancer' ces pages de temps en temps.

              Par exemple j'ai utilisé pendant un an sur mon site l'option de configuration Alias Unicode à OUI dans les paramètres SEO, avant de me rendre compte qu'il s'agissait d'une bêtise qui me compliquait la vie, le site étant purement francophone, j'ai donc replacé Alias Unicode à NON il y a environ un an et après avoir réglé les inévitables problèmes résultant de minuscules accentués traînant dans les url je peux garantir qu'il n'y a plus une seule url avec des minuscules accentuées sur mon site (sauf peut être dans quelques recoins du forum, mais c'est anecdotique).

              Rien qu'aujourd'hui j'ai une bonne vingtaine d'erreur 404 remonté par le module Joomla! de redirection (pas par GWT notez bien), faisant référence à des urls comme :
              /progresser/les-syst%C3%A8mes-de-qu%C3%AAte/qu%C3%AAte-de-trahison.html
              ou encore :
              /48-frontnews/199-qu%C3%83%C6%92%C3%86%E2%80%99%C3%83%E2%80%9A%C3%82 %C2%AAtes-d-h%C3%83%C6%92%C3%86%E2%80%99%C3%83%E2%80%9A%C3%82% C2%A9ritage-bis.html

              je ne compte plus ces cas il yen a tous les jours ces urls ne peuvent avoir été mises en cache qu'il y a bien plus d'un an maintenant (le numéro d'article me montre qu'elles ont été créées il y a en gros un an et demi)

              Seule explication logique elles sont quelque part dans le cache d'un Google ou Bing ou autre et ressortent par miracle parce que quoi qu'on en pense (et ça c'est acté dans la documentation), supprimer une url par les moyens précités n'est pas définitif (pour Bing je crois que c'est pour 50 jours et leur processus s'appelle d'ailleurs 'bloquer une url', par rapport à supprimer pour Google)

              Cordialement
              Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

              Commentaire


              • #8
                Re : Page supprimée - introuvable par GWT

                Envoyé par PhilJ Voir le message
                Plus exactement, les résultats de recherche sont obtenus à la vitesse de l'éclair, mais l'indexation et la désindexation peuvent prendre du temps.
                oui oui c'est ce que je voulais dire ! Google n'est heureusement pas lent à tous les niveaux :-P

                Envoyé par PhilJ Voir le message
                Il arrive aussi qu'une page soit repérée mais pas encore indexée. Si, pendant cet intervalle de temps, qui peut être assez long, vous supprimez cette page repérée-pas-encore-indexée, Google cherche à l'indexer et, ce qui est normal, ne la trouve pas. Une erreur est alors signalée (les GWT indiquent « Code de réponse 404 »), alors qu'en réalité il n'y a pas d'erreur.
                OK alors çà doit sans doute être çà ... je vais continuer de marquer comme corrigé les erreurs en attendant que çà passe ...

                Envoyé par PhilJ Voir le message
                Exploration > Erreurs d'exploration, puis cliquer l'URL de la page dont le Code de réponse est 404, puis cliquer l'onglet 'Référencée sur' dans la fenêtre qui s'ouvre en modal.
                alors si c'est çà, j'avais bien vérifié, et la page était référencée uniquement sur le site lui-même, avec et sans le www

                Commentaire


                • #9
                  Bonjour,


                  Envoyé par PieceOfCake Voir le message
                  [...] bien que ce ne soit écrit et codifié nulle part, je suis persuadé que Google, Bing et les autres continuent à garder les urls en erreur après suppression dans un cache longue durée et que leurs algorythmes les fait 'relancer' ces pages de temps en temps.
                  Oui. On ne travaille ni l'un ni l'autre chez Google, mais en utilisant régulièrement les GWT on voit bien l'un et l'autre que le processus d'indexation se fait en (au moins) 2 temps : les URL des pages sont d'abord identifiées, et le nom de cache convient en effet très bien pour désigner cette liste d'URL identifiées susceptibles d'être intégrées à l'index du moteur. Ce n'est que dans un 2e temps que les contenus des pages identifiées sont indexés, s'ils le méritent.

                  Ce procédé en deux temps a à l'évidence sa raison d'être — même si ce n'est peut-être pas la seule — dans le fait qu'il est extrêmement fréquent que des URL différentes conduisent aux mêmes contenus. Par exemple /sujet et /sujet?param=value : Google cherche à optimiser son index, en ne le surchargeant pas de données redondantes.

                  Le problème, même si le mot est probablement un peu fort en l'occurrence, c'est que ce « cache » est très persistant. On a beau déclarer des URL comme ayant été supprimées, il arrive souvent que les pages en erreur 404 reviennent dans les GWT comme des taches indélébiles.

                  A mon avis, à partir du moment où les pages en question sont vraiment supprimées, ou, à plus forte raison, si elles sont marquées en Disallow dans le robots.txt, il faut traiter cela par le mépris .

                  Pas plus tard qu'hier, j'ai eu le plaisir de voir dans la section 'Erreurs d'exploration' des GWT, qu'un site de e-commerce contenant plusieurs centaines de (vraies) pages m'annonçait joyeusement : « Aucune erreur n'a été détectée au cours des 90 derniers jours. Félicitations ! » — ceci après un certain nombre d'interventions musclées dans le robots.txt. Or : (1°) juste en dessous dudit message sympathique, je vois qu'il y a encore une page en erreur 404. Vérification faite, cette erreur a déjà été corrigée, et elle ne se trouve plus dans l'index du moteur. (2°) La précision 'pas d'erreur détectée au cours des 90 derniers jours' est fantaisiste : ce site mis en ligne à la mis Avril contenait un certain nombre d'erreurs d'aiguillage, certes toutes corrigées par mes soins, mais qui ont été bien visibles comme telles dans les GWT pendant plusieurs semaines.

                  Moralité : il n'y en a pas . Il faut considérer les outils du webmaster Google comme un moyen efficace de détecter un certain nombre de problèmes, et chaque visite dans les GWT peut nous révéler quelque chose qui cloche, mais il faut aussi comprendre et admettre que (1) l'outil n'est pas parfait, et (2) que les données affichées ne résultent pas d'une analyse en temps réel. Si on commence à croire tout ce qu'on nous dit et tout ce qu'on nous fait lire, on ne s'en sortira jamais... croyez-moi !


                  Bon week-end,



                  PhilJ
                  Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

                  Commentaire


                  • #10
                    Re : Page supprimée - introuvable par GWT

                    PhilJ,
                    ce n'est pas nouveau, on est d'accord globalement sur les fondamentaux !

                    Ce qui st désagréable avec Google, c'est qu'ils ne communiquent absolument pas sur des éléments pourtant assez simples et banales (banaux ?), la suppression des pages du cache Google en est un exemple évident. Il semble évident que Google ne garde pas à vie les informations qu'il collecte, dans quelles conditions fait il le ménage dans ces bases, difficile de le savoir ! Bing a le mêrme souci du secret, mais de manière évidente lui aussi 'relance' des url déjà indexée et e déjà en cache.

                    Petit exemple (et démonstration enfin ... il me semble).
                    J'ai utilisé pendant 18 mois JSN Epic comme template en version free, compte tenu de l'évolution des choses avec les mobiles (tablettes iPhone etc...) et compte etnu que quelques personnes commençaient à me remonter des informations comme quoi mon site était pas si top que ça avec un téléphone mobile, j'ai cassé ma tire lire et acheté la version PRO de JSN Epic fin mars. Bien tout baigne, tout le monde est content et mon site est vidé mobile par Mr Google en personne youpie. La dessus mi avril comme je n'ai plus l'usage de JSN Epic en version Free (désactivé lors de l'installation de la version PRO), je désinstalle complètement la version free qui n'existe de fait plus du tout sur mon site Joomla! : patatras ! : les icones sur chaque pages proposant l'envoi d'un article par email ou l'impression du dit article faisait référence à jsn_epic_free et font maintenant référence à jsn_epic_pro bien , oui mais depuis 400 erreurs 404 par jour (sous Bing pas Google explication après!), il s'agit donc bien de vieilles urls stockées dans les caches qui sont périodiquement relancées par Google ou Bing ... pour 'voir'
                    (Note : je n'ai pas de problème avec Google car j'avais depuis longtemps placé une instruction noIndex sur ces url générées par les icones eMail et Imprimer, mais voilà noIndex est une instruction purement Google, depuis j'ai rajouté un disallow sur ces mêmes urls, il va falloir patienter un peu que ça fasse effet)


                    Opinion personnelle non confirmée à ce jour, pour purger ces caches Google (Bing et les autres aussi sans doute) réactivent régulièrement les vieilles urls et marque un flag en retour d'une erreur 404, au bout d'un certain nombre de fois que des erreurs 404 sont retournées, la page 'disparaît (enfin) du cache, et on peut gagner un peu de temps en sollicitant Google pour supprimer l'url via GWT.

                    Sauf que si comme moi vous avez redirigé vos erreurs 404 vers une page personnalisé et que comme moi vous l'avez mal fait, Google, ne reçoit plus 404 mais 200 (Je viens de changer ma stratégie de redirection des 404, là aussi il faudra un peu de temps pour en connaître les effets)

                    Voilà personnellement j'en suis là, peut être me trompé je, mais je pense ne pas être très loin de la vérité (enfin j'espère)

                    Cordialement
                    Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

                    Commentaire


                    • #11
                      Re : Page supprimée - introuvable par GWT

                      Envoyé par PieceOfCake Voir le message
                      PhilJ, ce n'est pas nouveau, on est d'accord globalement sur les fondamentaux !
                      Oui, et donc on est globalement d'accord pour dire que le problème n'en est généralement pas vraiment un.


                      Petit exemple (et démonstration enfin ... il me semble). J'ai utilisé pendant 18 mois JSN Epic comme template en version free [...] j'ai cassé ma tire lire et acheté la version PRO de JSN Epic fin mars. [...] je désinstalle complètement la version free qui n'existe de fait plus du tout sur mon site Joomla! : patatras ! : les icones sur chaque pages proposant l'envoi d'un article par email ou l'impression du dit article faisait référence à jsn_epic_free et font maintenant référence à jsn_epic_pro bien , oui mais depuis 400 erreurs 404 par jour [...] il s'agit donc bien de vieilles urls stockées dans les caches qui sont périodiquement relancées par Google ou Bing ... pour 'voir'.
                      J'ai déjà moi aussi rencontré des soucis à la suite de mises à jour avec des templates JSN — pas de ce point de vue (le référencement), mais sur le plan des styles (CSS). JoomlaShine propose de bons templates, mais gare aux mises à jour !


                      Note : je n'ai pas de problème avec Google car j'avais depuis longtemps placé une instruction noIndex sur ces url générées par les icones eMail et Imprimer, mais voilà noIndex est une instruction purement Google, depuis j'ai rajouté un disallow sur ces mêmes urls, il va falloir patienter un peu que ça fasse effet.
                      En effet, il vaut mieux se fier aux instructions standard.

                      Opinion personnelle non confirmée à ce jour, pour purger ces caches Google (Bing et les autres aussi sans doute) réactivent régulièrement les vieilles urls et marque un flag en retour d'une erreur 404, au bout d'un certain nombre de fois que des erreurs 404 sont retournées, la page 'disparaît (enfin) du cache, et on peut gagner un peu de temps en sollicitant Google pour supprimer l'url via GWT.

                      Sauf que si comme moi vous avez redirigé vos erreurs 404 vers une page personnalisé et que comme moi vous l'avez mal fait, Google, ne reçoit plus 404 mais 200 (Je viens de changer ma stratégie de redirection des 404, là aussi il faudra un peu de temps pour en connaître les effets).
                      Là c'est sûr, il ne faut pas t'étonner, si tu utilises de vieilles 404...
                      Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

                      Commentaire

                      Annonce

                      Réduire
                      Aucune annonce pour le moment.

                      Partenaire de l'association

                      Réduire

                      Hébergeur Web PlanetHoster
                      Travaille ...
                      X