Erreurs 500 au lieu de 404 pour pages supprimées

Réduire
Ce sujet est fermé.
X
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • [RÉGLÉ] Erreurs 500 au lieu de 404 pour pages supprimées

    (titre initial de ce post : Suppression URL dans les GWT inefficace. je change de titre car finalement le problème de fond, c'est que les GWT affichent des erreurs serveur code 500 pour des pages qui devraient sortir en code 404 voire même en 410 pages supprimées. Or on ne peut demander la suppression d'URL en erreur 500 aux GWT...)

    Bonjour,

    D'abord, pardon de poster sur un forum Joomla une question relative aux outils pour webmaster de Google.
    Mais ce forum étant infiniment plus actif et réactif que le forum Google (et que quelques autres que je ne citerai pas dans lesquels j'ai tenté de trouver réponse à ma question...), je préfère courir le risque de me faire tirer un peu les oreilles pour avoir une chance d'obtenir une réponse efficace ici.

    Mon problème : suite à une énorme refonte de mon site, je me retrouve avec une foule d'URL renvoyant des erreurs 500 dans les GWT. Normal, ces URLs n'existent plus.
    Cet été avant les vacances, je me suis donc coltinée une longue liste d'URL à supprimer manuellement et une par une dans les GWT. Puis j'ai indiqué que toutes les erreurs 500 étaient résolues.
    Super, la courbe des erreurs d'indexation a spectaculairement chuté, c'était parfait.

    Las... tout revient peu à peu comme avant

    Quand je vais consulter la liste des URL pour lesquelles j'ai demandé la suppression, ici : https://www.google.com/webmasters/tools/removals?pli=1 ,
    je retrouve bien ce que j'avais fait, mais en face de chaque ligne il est écrit

    État : Expirée (qu'est-ce que ça veut dire ? qu'il faut renouveler la demande périodiquement ? qu'elle n'a pas été traitée à temps par Google ? ou quoi ?)

    Type de suppression : Suppression d'une page obsolète

    Alors j'ai 2 questions :
    a) existe-t-il un moyen fiable de demander la suppression définitive de ces URL à Google ?
    b) sinon, Est-ce que je ne pourrais pas, via le fichier robots.txt, écrire une ligne qui permettrait d'écarter de façon fiable toutes ces URL ? Elles ont en effet un point commun : elles commencent toutes par www.monsite.fr/html/...
    (alors que sur mon site actuel, c'est plutôt : www.monsite.fr/index.php/...)

    Si la solution b) vous paraît être la plus fiable, comment dois-je écrire la ligne dans robots.txt ?

    Les autres commandes sont écrites par exemple /administrator/ ce qui signifie, si j'ai bien compris : www.monsite.fr/index.php/administrator/
    Mais vu que pour ces vieilles URL la chaîne index.php n'existe pas, je ne sais pas trop comment faire ... dois-je écrire http://www.monsite.fr/html/ ?

    Merci d'avance pour ce nouveau coup de main
    Dernière édition par FlodAriege à 13/10/2014, 13h06
    Flo, Ariège

    Il n'y a que celui qui a honte d'apprendre qui a peur de demander

  • #2
    Re : Suppression URL dans les GWT inefficace

    Bonjour,


    Envoyé par FlodAriege Voir le message
    Mon problème : suite à une énorme refonte de mon site, je me retrouve avec une foule d'URL renvoyant des erreurs 500 dans les GWT. Normal, ces URLs n'existent plus.
    ...C'est la première des choses à clarifier : les erreurs signalées dont le code commence par un 5 sont des erreurs de type serveur. Lorsqu'une page est déplacée / n'existe plus, c'est le lien qui est en erreur, non le serveur, et le code commence alors par un 4, et non pas un 5.

    Typiquement :
    • Erreur 500 : erreur serveur générique (= serveur en défaut, en panne...).
    • Erreur 404 : erreur client spécifique = page non trouvée.


    Voir la liste complète sur https://support.google.com/webmaster...er/40132?hl=fr (ou ailleurs, par exemple sur http://en.wikipedia.org/wiki/List_of_HTTP_status_codes).

    En d'autres termes : si Google trouve des erreurs 500, ce n'est pas parce que la page n'existe plus (comme tu l'écris ici), mais parce que le serveur a rencontré un problème.


    Quand je vais consulter la liste des URL pour lesquelles j'ai demandé la suppression, ici : https://www.google.com/webmasters/tools/removals?pli=1 , je retrouve bien ce que j'avais fait, mais en face de chaque ligne il est écrit

    État : Expirée

    (qu'est-ce que ça veut dire ? qu'il faut renouveler la demande périodiquement ? qu'elle n'a pas été traitée à temps par Google ? ou quoi ?)
    ...Peut-être regarder la doc GWT ici : https://support.google.com/webmaster.../1663419?hl=fr.

    Un point important : Google refuse de supprimer des pages qui, (1°) soit ne sont pas effectivement en code erreur 404 (page supprimée) ou 410 (page déplacée), (2°) soit ne sont pas marquées comme ne devant pas être indexées dans robots.txt. Autrement dit, si une URL est toujours valide et si robots.txt n'en interdit pas expressément l'accès, Google ne la supprimera pas de son index.

    L'autre point important est le temps : une demande de suppression de page est valable 90 jours. Autrement dit, la demande est prise en compte pendant 3 mois.

    Si, au bout de 3 mois, la page n'est toujours pas en code erreur 404 ou 410, ou si elle n'est pas expressément inscrite comme ne devant pas être indexée dans robots.txt, alors la demande expire, c'est-à-dire n'est plus prise en compte. Il est probable que c'est ce qui arrive dans le cas présent : tu as demandé la désindexation de pages il y a plus de 90 jours, mais sans faire pendant ce laps de temps ce qu'il faut pour que les conditions de désindexation soient effectivement satisfaites (= robots.txt ou pages effectivement en 404 / 410).

    Il faut ajouter que Google peut mettre des semaines, voire des mois à supprimer totalement des pages de son index à la suite d'une demande de suppression dans les GWT.


    Également, faire l'un de ces petits tests : saisir l'une des URL en question, entourée de guillemets, dans Google. Le moteur en a-t-il trouvé trace ? Ou bien saisir le titre exact de la page en question, également avec des guillemets : quelle est l'URL retournée par le moteur ?



    Cordialement,



    PhilJ
    Dernière édition par PhilJ à 09/10/2014, 01h13
    Créateur de sites internet — Agence web indépendante http://www.e-33.fr | http://www.quali-site.fr (région de Bordeaux)

    Commentaire


    • #3
      Re : Suppression URL dans les GWT inefficace

      Pas mieux,

      Juste faire un petit ajout en ce qui concerne les softs 404 qui sont en fait liées à l'interception d'une erreur 404 redirigée vers une page spécifique et qui sont bien traitées par GWT en suppression, même si le code apparaissant dans les logs est 302

      Si tu as des codes erreurs 500 Florence, il faut en priorité regarder tes fichiers logs pour en détecter la cause exacte et pouvoir la traiter

      Cordialement
      Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

      Commentaire


      • #4
        Re : Suppression URL dans les GWT inefficace

        Envoyé par PieceOfCake Voir le message
        Pas mieux,

        Juste faire un petit ajout en ce qui concerne les softs 404 qui sont en fait liées à l'interception d'une erreur 404 redirigée vers une page spécifique et qui sont bien traitées par GWT en suppression, même si le code apparaissant dans les logs est 302

        Si tu as des codes erreurs 500 Florence, il faut en priorité regarder tes fichiers logs pour en détecter la cause exacte et pouvoir la traiter

        Cordialement
        Salut mon ami

        Qu'est-ce que tu appelles mes "fichiers logs" ?

        Merci et bon samedi !
        Flo, Ariège

        Il n'y a que celui qui a honte d'apprendre qui a peur de demander

        Commentaire


        • #5
          Re : Suppression URL dans les GWT inefficace

          Envoyé par PhilJ Voir le message
          ...C'est la première des choses à clarifier : les erreurs signalées dont le code commence par un 5 sont des erreurs de type serveur. Lorsqu'une page est déplacée / n'existe plus, c'est le lien qui est en erreur, non le serveur, et le code commence alors par un 4, et non pas un 5.

          (...)
          En d'autres termes : si Google trouve des erreurs 500, ce n'est pas parce que la page n'existe plus (comme tu l'écris ici), mais parce que le serveur a rencontré un problème.
          Toutes ces URL en erreur sont des URL de l'ancienne version de mon site, conçue sous NetObject Fusion. A la base si je me souviens bien, tout le contenu du site se trouvait à la racine de mon site sur 1&1.
          Quand j'ai installé Joomla, j'ai appris qu'il fallait créer un dossier, et faire pointer le domaine vers ce dossier.
          J'ai donc créé un dossier pour Joomla, fait pointer mon domaine vers ce dossier mais...
          ... au tout début, j'avais aussi créé un dossier nof dans lequel j'avais déplacé le contenu de l'ancien site (oui je sais, je suis trop conservatrice, mais j'avais tellement la trouille de ne pas savoir installer correctement l'autre site que je voulais pouvoir faire pointer à nouveau mon domaine vers l'ancienne version au cas où).
          Depuis, j'ai supprimé ce dossier nof, il n'existe plus sur le serveur.
          Je ne comprends donc pas pourquoi Google considère ces URLs comme des erreurs serrveur 500 et non comme des contenus disparus...

          Ah oui, il faut aussi que je te dise que le "referrer" de la plupart de ces pages en erreur 500 est un vieux sitemap désormais inaccessible, et qui n'apparaît plus dans la liste des sitemap de mon site... Pourquoi diable Google continue-t-il de l'utiliser alors qu'il n'existe plus ? (il porte un nom tout à fait différent de celui d'aujourd'hui)


          Envoyé par PhilJ Voir le message
          ...Peut-être regarder la doc GWT ici : https://support.google.com/webmaster.../1663419?hl=fr.
          Moi qui croyais avoir lu correctement le mode d'emploi, je m'aperçois qu'en fait j'ai cherché dans Google "comment supprimer url" et appliqué la méthode sans vérifier les conditions qui sont ici parfaiement décrites et que tu redonnes ci-après. Oups !

          Envoyé par PhilJ Voir le message
          Un point important : Google refuse de supprimer des pages qui, (1°) soit ne sont pas effectivement en code erreur 404 (page supprimée) ou 410 (page déplacée), (2°) soit ne sont pas marquées comme ne devant pas être indexées dans robots.txt. Autrement dit, si une URL est toujours valide et si robots.txt n'en interdit pas expressément l'accès, Google ne la supprimera pas de son index.
          Puis-je écrire ces 2 lignes dans mon robots.txt disant :
          disallow: "http://monsite.fr/html/"
          disallow: "http://www.monsite.fr/html/"

          En effet, mes nouvelles URLs commencent toutes par "http://www.monsite.fr/index.php" donc je me dis qu'en mettant les 2 lignes ci-dessous, je devrais contourner le problème, non ?

          Envoyé par PhilJ Voir le message
          L'autre point important est le temps : une demande de suppression de page est valable 90 jours. Autrement dit, la demande est prise en compte pendant 3 mois.

          Si, au bout de 3 mois, la page n'est toujours pas en code erreur 404 ou 410, ou si elle n'est pas expressément inscrite comme ne devant pas être indexée dans robots.txt, alors la demande expire, c'est-à-dire n'est plus prise en compte. Il est probable que c'est ce qui arrive dans le cas présent : tu as demandé la désindexation de pages il y a plus de 90 jours, mais sans faire pendant ce laps de temps ce qu'il faut pour que les conditions de désindexation soient effectivement satisfaites (= robots.txt ou pages effectivement en 404 / 410).

          Il faut ajouter que Google peut mettre des semaines, voire des mois à supprimer totalement des pages de son index à la suite d'une demande de suppression dans les GWT.
          Si je comprends bien, et à condition que les lignes ci-dessus pour mon robots.txt soient correctes, il faudra que je re-saisisse toutes les URLs à supprimer, et renouveler tous les 3 mois jusqu'à ce Google les supprime vraiment ?
          Ou bien est-ce que la manip avec le robots.txt peut se suffire à elle seule ?
          (d'autant que dans tous les cas, ces URLs devraient rester des erreurs 500 et non 404, et donc que Google refusera toujours de les supprimer...)

          Envoyé par PhilJ Voir le message
          Également, faire l'un de ces petits tests : saisir l'une des URL en question, entourée de guillemets, dans Google. Le moteur en a-t-il trouvé trace ?
          Si je cherche l'URL entre guillemets, Google me dit :
          Aucun document ne correspond aux termes de recherche spécifiés

          Envoyé par PhilJ Voir le message
          Ou bien saisir le titre exact de la page en question, également avec des guillemets : quelle est l'URL retournée par le moteur ?
          Test n°1 : Google me retourne 2 URL (de mon site actuel) dont le texte contient la chaine de caractères exacte du titre de l'ancienne page, mais dont le titre actuel est différent (oups, pas très clair, non ?)
          Test n°2 : aucun résultat exact trouvé par Google.

          Bon alors, à ton avis, qu'est-ce que je dois faire ? Ecrire dans mon robots.txt et point barre, ou bien est-ce que ça ne suffira pas ?



          PS : je ne sais pas si je ne devrais pas ouvrir un autre post pour ça, mais je viens de m'apercevoir que dans Mozilla, quand je fais un copier-coller de l'URL d'une des pages de mon site, il colle une URL de type : "http://monsite.fr" (sans les www). Ca arrive quand j'arrive sur une page de mon site sans passer par Google et que je tape (par fainéantise) dans la barre d'adresse les premiers caractères de l'adresse recherchée mais sans mettre les www, genre "monsite.fr"
          Parallèlement, je constate dans la liste des erreurs d'indexation Google que certaines URL de mon site actuel sont listées avec cette syntaxe "http://monsite.fr/index.php" avec un code 301. Si je saisis cette URL dans la barrre d'adresse j'arrive sur ma page personnalisée "erreur 404". Il faut que je mette en place quelques redirections, ça d'accord, mais je trouve bizarre cette absence de www dans l'URL.
          Pour que le tableau soit complet : au tout début de la création de mon tout 1er site chez 1&1 avec le logiciel NOF, j'avais constaté cette absence d'URL, et 1&1 m'avait donné la solution en me disant de mettre en place un truc dans mon .htaccess :
          Options +FollowSymLinks
          RewriteEngine on
          RewriteBase /
          RewriteCond %{HTTP_HOST} ^rouchenergies.fr$
          RewriteRule ^(.*) http://www.rouchenergies.fr/$1 [QSA,L,R=301]
          ... mais la présence d'URL sans les www dans les résultats de recherche Google en erreur ne témoigne-t-elle pas d'une sorte de duplicate content (même page accessible avec ou sans les www) ???
          Si tu veux j'ouvre un post pour ça.
          Dernière édition par FlodAriege à 11/10/2014, 13h00
          Flo, Ariège

          Il n'y a que celui qui a honte d'apprendre qui a peur de demander

          Commentaire


          • #6
            Re : Suppression URL dans les GWT inefficace

            Envoyé par FlodAriege Voir le message
            Salut mon ami

            Qu'est-ce que tu appelles mes "fichiers logs" ?

            Merci et bon samedi !
            Je vais déjà répondre à ça et relire le post suivant tranquillement car il me semble bien long et je me suis perdu en route :

            1) d'abord ce ne sont pas tes logs à toi mais ceux de ton serveur. A chaque fois qu'une requête HTTP est émise (attention, j'ai pas dit à chaque URL tapé par l'utilisateur, sur une seule URL tapée ou suivi par l'utilisateur, il peut y avoir une pléthore de requête HTTP (une par image par exemple), ton serveur APACHE va garder une trace de l'échange et noter, l'heure, l'url , l'opération effectuée (GET, POST, SEND ...), le referrer (c'est à dire la page d'origine), le code erreur (200 c'est OK, 301 c'est redirection, tu connais déjà, 404 : url non trouvée, tu connais aussi, 500 c'est erreur non pas de la page, mais du serveur, qui n'arrive pas à exécuter cette page pour un motif précis)

            C'est ce fichier log qui serait intéressant à examiner (quelque fois il y en a 2 un pour les requêtes, un pour les erreurs, ça dépend de l'hébergeur), si tu ne sais pas où le trouver (moi j'accède au mien en téléchargement par le cPanel), demande à ton hébergeur (1&1 si je ne m'abuse)

            2) Pour le post, suivant j'anticipe sur ma relecture annoncée, il faut te méfier de GWT, qui fait les choses très (trop ?) bien, mais ne préviens pas ! Par exemple si tu examines un lien en erreur (quelle que soit l'erreur : 404, soft 404, 500 ou autre), tu as l'url en erreur, il bne faut pas tout de suite essayer de la supprimer (Index Google > URL à supprimer), mais d'abord cliquer sur le lien proposé, cela va t'ouvrir une fenêtre dans laquelle tu pourras avoir des informations intéressantes, comme déjà la date de la première détection de cette erreur d'url (Google à une mémoire d'éléphant ... pour un pingouin), ensuite dans le deuxième onglet de cette fenêtre tu vas avoir accès aux referrers dont je parlais plus haut, c'est à dire aux pages qui référencent celle en erreur. Résultat des courses, si tu te contente de supprimer la page erronée et que celle-ci est toujours référencée dans une autre page, tu as gagné, l'erreur reviendra, il faut examiner suivant les cas, si tu dois aussi supprimer le referrer ou le corriger. Travail de romain je te préviens, surtout au début.
            Suite à une modification de stratégie, j'ai effectué une modification qui m'a déclenchée jusqu'à une centaine de liens morts par jour pendant un petit moment (il y a un peu plus d'un mois maintenant), je suis descendu assez rapidement à une quinzaine de liens morts détectés par jour pour avoir maintenant 2 ou 3 liens par jour, encore 15 jours ou 3 semaines et je devrais en être sorti
            Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

            Commentaire


            • #7
              Re : Suppression URL dans les GWT inefficace

              Envoyé par PieceOfCake Voir le message

              (...)
              1) d'abord ce ne sont pas tes logs à toi mais ceux de ton serveur. (...)
              Chez 1&1, à la racine (où se trouve aussi le dossier dans lequel mon site est rangé), il y a un dossier logs.
              Serait-ce de celui-là que tu parles ?
              Parmi une foule de trucs qu'il contient, je vois 1 CURRENTFichier : access.log.current
              Les autres ont l'air d'archives, ou contiennent ftp ou mail dans leur nom.
              Bon OK, je le télécharge, et je l'ouvre avec Notepad. Ah non, ça ne contient que des trucs datés d'aujourd'hui, donc je vais en chercher un qui date de la date de l'erreur relevée par Google... OK, trouvé !

              Qu'Est-ce que je dois chercher là dedans ?
              Exemple d'un lien retrouvé, voici ce que dit le fichier logs (ai viré mon nom de domaine de la chaine, j'espère que ce sera suffisant pour ne pas poser problème de coller ça ici ???):

              157.55.39.x - - [19/Sep/2014:16:17:56 +0200] "GET /201407021650/201403122230/201403122230/html/credit_d_impot.html HTTP/1.1" 200 652 monsite.fr "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)" "-"

              Envoyé par PieceOfCake Voir le message
              2) (...) d'abord cliquer sur le lien proposé, cela va t'ouvrir une fenêtre dans laquelle tu pourras avoir des informations intéressantes, comme déjà la date de la première détection de cette erreur d'url (Google à une mémoire d'éléphant ... pour un pingouin), ensuite dans le deuxième onglet de cette fenêtre tu vas avoir accès aux referrers dont je parlais plus haut, c'est à dire aux pages qui référencent celle en erreur. (...)
              Les referrer sont des pages à moi qui sont elles-mêmes obsolètes et supprimées (et qui figurent souvent dans la liste des erreurs d'exploration de GWT)
              Dernière édition par FlodAriege à 11/10/2014, 15h17
              Flo, Ariège

              Il n'y a que celui qui a honte d'apprendre qui a peur de demander

              Commentaire


              • #8
                Re : Suppression URL dans les GWT inefficace

                Bien c'est ça qu'il fallait trouver. Les informations sont, dans l'ordre (le séparateur est l'espace) :

                * adresse IP de l'exécutant (celui qui a lancé l'URL)
                * les deux infos vides (je ne sais palus, mais c'est inutilisé sur la plupart des serveurs Apache que j'ai vu)
                *date - heure et le décalage par rapport à GMT (chez moi c'est -4:00) ça permet de se référer à la même heure quel que soit l'endroit où est situé le serveur par rapport à l'appelant
                * l'opération HTTP exécutée ici GET (lecture) de l'url énoncée, suivi de la version HTTP en question
                * le code status de l'opération HTTP ici 200, il te faut chercher des 500 (avec notepad++ par exemple tu cherches espace500espace sinon tu vas en ramasser des caisses pour rien)
                * la longueur du message retourné par le serveur (ici 652 octets)
                * l'adresse du referrer (la page qui a émis la demande)
                * le user-agent (la signature du navigateur qui a effectué la demande, tu y verras passer les bots et parfois rien, ça peut être modifié et utilisé à son avantage par un petit malin mal intentionné)


                Voilà tu vois c'est pas si compliqué

                Allez au boulot

                Bon courage
                Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

                Commentaire


                • #9
                  Re : Suppression URL dans les GWT inefficace

                  Bon alors, j'ai cherché dans chacune des 21 archives logs et les seuls codes 500 que je trouve concernent des pages de la version actuelle de mon site (= avec la chaine de caractères "index.php").

                  Je n'en trouve d'ailleurs que 17, un chiffre très loin des 104 erreurs serveur signalées par les GWT...
                  9 fois sur 10 ce sont des tentatives d'accès à des dossiers dont l'exploration est interdite (images, administrator, etc.), et le 1 sur 10 restant ce sont des URLs qui fonctionnent nickel chrome.

                  Bizarrement, quand je lance une recherche dans mes logs avec la chaîne de caractères "/html" (= pour repérer des URL de mon ancien site), le code qui s'affiche dans les logs est un code 200, et non 500 ...
                  Exemple :
                  157.55.39.x - - [08/Sep/2014:03:35:12 +0200] "GET /html/eco-ptz_2013.html HTTP/1.1" 200 652 www.monsite.fr "-" "Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)" "-"

                  ...code 200 = requête traitée avec succès... mon œil !!!
                  L'URL indiquée ici est très clairement une page de mon ancien site, à laquelle il est impossible d'accéder !... et qui renvoie un message d'erreur 500 quand on la met dans un navigateur...
                  Et d'abord pourquoi 500 ? Pourquoi pas 404 ??

                  Quand je regarde la liste des URL en code 500 dans les GWT, j'ai l'impression que Google continue d'explorer mon site en suivant un ancien sitemap (d'ailleurs cet ancien sitemap figure parfois dans la liste des referrers des pages en erreur 500 dans les GWT).
                  Evidemment ce sitemap a été supprimé du serveur il y a longtemps. Pourquoi Google continuerait-il de l'explorer ?
                  Les GWT ne montrent pourtant qu'un seul et unique sitemap pour mon site, et c'est le bon (l'actuel).


                  C'est super bizarre tout ça pour moi, déjà que je n'y comprends pas grand chose, mais alors là...

                  Alors, à ton avis, qu'est-ce que je devrais faire maintenant ?


                  PS : Je ne vais pas compliquer les choses maintenant, mais si jamais on arrive à résoudre ce problème dans les GWT, il faudra que je te parle aussi des WT de Bing.... Là c'est carrément carnaval ! (avec des erreurs 500 sur des URLs du genre "http://monsite.fr/travelnews/local/london.shtml" = des trucs sans aucun rapport avec moi ou mon activité, ou encore "http://www.monsite.fr/201403122230/html/habiter_mieux.html" = des URLs de mon ancien site, mais avec en prime dans l'URL le nom du sous-dossier vers lequel j'ai à une époque fait pointer mon domaine chez mon hébergeur 0&0.... va comprendre...)
                  Flo, Ariège

                  Il n'y a que celui qui a honte d'apprendre qui a peur de demander

                  Commentaire


                  • #10
                    Re : Suppression URL dans les GWT inefficace

                    Evidemment ce sitemap a été supprimé du serveur il y a longtemps. Pourquoi Google continuerait-il de l'explorer ?
                    Relis le §2 du post #6

                    J'ai mis un mois à raison de 30 à 45mn par jour pour me débarrasser des vieilles URL que Google conserve en cache et je suis pas totalement sur qu'il les a toutes supprimées. Je croyais que tu avais fait une redirection de ton site complet au départ (de mémoire).

                    En gros tu as deux solutions :
                    * soit signaler à Google (GWT) que ton ancien site n'existe plus (à ne pas faire si tu as conservé) le nom de domaine

                    * soit faire ce que j'ai fait c'est à dire examiner une par une les url signalées en erreur et détruire celles-ci ainsi que les referrer qui sont dans le cache Google et qui continue à alimenter ces pages (je m'explique la page C est signalée en erreur car elle n'existe plus. OK tu la supprimes via GWT du cache Google. Parfait, mais si cette page est référencée dans la page B (un menu, un lien interne etc etc...), à la prochaine occurrence ou Google va re scanner ta page B depuis le cache, la page C ressort miraculeusement, paf tout à refaire, crois moi ça prend du temps)


                    Ceci n'explique tout de même pas la raison profonde des erreurs 500.

                    Nota : ceci dit moi je n'ai jamais d'erreur 404 (ou presque) car j'ai écrit une page de gestion des 404 et GWT me sort désormais les erreurs de page inexistantes en 'soft 404' (soft car je suppose il détecte bien l'absence de la page, mais surtout HTTP retourne 302 au lieu de 200 ou 404, c'est à dire redirection)
                    Dernière édition par PieceOfCake à 12/10/2014, 15h32
                    Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

                    Commentaire


                    • #11
                      Re : Suppression URL dans les GWT inefficace

                      Envoyé par PieceOfCake Voir le message
                      (...) Je croyais que tu avais fait une redirection de ton site complet au départ (de mémoire).
                      Ah bah non en fait...
                      J'ai juste demandé une fois si ça valait le coup de mettre des redirections de mes anciennes URL vers leur équivalent actuel (le contenu ayant finalement peu changé), et on m'a répondu que garder des vieilleries ne servait à rien.
                      Bon, ceci dit :
                      est-il possible de créer une "redirection" (redirection ou htaccess ou... ???) qui remplacerait dans toute URL commençant par http://www.monsite.fr/html/ cette chaîne de caractères par la chaîne de caractères "http://www.monsite.fr/index.php/" ??????????
                      Et sinon qu'Est-ce que tu appelles "faire une redirection de mon site complet au départ" au juste ?


                      Envoyé par PieceOfCake Voir le message
                      En gros tu as deux solutions :
                      * soit signaler à Google (GWT) que ton ancien site n'existe plus (à ne pas faire si tu as conservé) le nom de domaine
                      Gagné, j'ai gardé le même nom de domaine, donc solution inadaptée...

                      Envoyé par PieceOfCake Voir le message
                      * soit faire ce que j'ai fait c'est à dire examiner une par une les url signalées en erreur et détruire celles-ci ainsi que les referrer qui sont dans le cache Google et qui continue à alimenter ces pages (je m'explique la page C est signalée en erreur car elle n'existe plus. OK tu la supprimes via GWT du cache Google. Parfait, mais si cette page est référencée dans la page B (un menu, un lien interne etc etc...), à la prochaine occurrence ou Google va re scanner ta page B depuis le cache, la page C ressort miraculeusement, paf tout à refaire, crois moi ça prend du temps)
                      J'avais bien compris mais... comment détruire un referrer qui n'existe plus ailleurs que dans la mémoire éléphantesque de Google ?
                      Est-ce que tu veux dire qu'il faut que je dessine l'arbre généalogique des erreurs 500 jusqu'à remonter aux referrers les plus haut dans l'arbre ?
                      Et comment faire quand le referrer est un sitemap disparu ??

                      Envoyé par PieceOfCake Voir le message
                      Ceci n'explique tout de même pas la raison profonde des erreurs 500.
                      En effet... Dont je n'ai aucune trace dans mes logs.
                      Figure-toi que j'ai même essayé de mettre une redirection d'une URL morte vers une URL actuelle et... ça continue de retourner une erreur 500 !! :

                      The server encountered an internal error or misconfiguration and was unable to complete your request.
                      Please contact the server administrator, and inform them of the time the error occurred, and anything you might have done that may have caused the error.
                      More information about this error may be available in the server error log.
                      Additionally, a 500 Internal Server Error error was encountered while trying to use an ErrorDocument to handle the request.


                      Je suis mal barrée j'ai l'impression...

                      PS: n'ayant pas obtenu de réponse à cette question posée dans un précédent post, j'ai ajouté une ligne à mon robots.txt dans laquelle je disallow l'indexation de http://www.monsite.fr/html/
                      J'espère a) que ça ne va pas détruire l'indexation de mon site actuel b) que ça incitera Google à cesser de tenter l'exploration d'un contenu qui n'existe plus...
                      Dernière édition par FlodAriege à 12/10/2014, 17h26
                      Flo, Ariège

                      Il n'y a que celui qui a honte d'apprendre qui a peur de demander

                      Commentaire


                      • #12
                        Re : Suppression URL dans les GWT inefficace

                        Je suis mal barrée j'ai l'impression...
                        Mais non plutôt moins que l'autre fois

                        Reprenons point par point, après tout on est encore loin des 200 posts (non je blague).
                        1) Tu es sûr d'avoir lue mon §2 du post 6 ?
                        Quand tu obtiens une page en erreur signalé par Google, d'abord cliquer sur le lien en question dans la liste (j'en ai plus en attente, mais demain avec un peu de chances, j'en aurais un ou deux qui traînent et je te ferais des copies d'écran).
                        Une fois la boîte de dialogue ouverte (après avoir cliqué sur le lien en erreur), cliquer sur référencé par, qui va te donner la liste des referrer de cette page, ceux qui ne sont de manière claire plus dans ton site actuel proviennent du cache de Google, copier le lien (clic droit copier le lien) et le passer dans (utilise une autre fenêtre GWT pour un plus grand confort) : Index > Url à supprimer, coller le lien et l'envoyer après validation (Google ou Google ET le cache), soit Google le prend en compte, soit il te dit qu'il l'a déjà en attente de suppression. Faire pareil pour tous les referrer erronés de ce lien, terminer par le lien lui-même.
                        Quand j'ai commencé, j'avais en moyenne 80 à 100 lien erronés par jour, en pratiquant ainsi au bout d'un mois, je suis descendu à 2 ou 3 par jour
                        2) Si tu as un lien sitemap.xml qui traîne dans tes referrer ou dans tes erreurs, supprime le sans pitié et rajoute une règle dans ton robots.txt, il n'y a pas de raisons pour indexer le sitemap, sinon si tu supprimes un lien de ton site, il continue à être référencé dans ce sitemap.xml j'ai décidé (on verra si l'avenir me donne raison) que le sitemap.xml devait être en noindex, follow sur mon site, après tout suivre les liens OUI, garder en mémoire dans le cache NON, me semble une règle raisonnable, j'ai donc ajouté dans mon robots.txt :
                        3) Les erreurs 500, à mon avis elles doivent se produire sur des redirections de vieille url pointant sur des choses qui n'existent plus et ne peuvent donc être plus exécutées correctement par le serveur Apache, tu n'avais pas à un moment mis en place des redirections par s04hsef ou un utilitaire de ce style ? 500 clairement est une erreur serveur, on est tous d'accord, si une page inexistante est redirigée vers une page non exécutable tu obtiens bien une erreur 500, ce n'est pas la page à l'origine qu'il faut trouver, mais celle qui est la cible de la redirection
                        Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

                        Commentaire


                        • #13
                          Re : Suppression URL dans les GWT inefficace

                          Envoyé par PieceOfCake Voir le message
                          (...)
                          1) Tu es sûr d'avoir lue mon §2 du post 6 ?
                          Voui mon ami

                          Envoyé par PieceOfCake Voir le message
                          Quand tu obtiens une page en erreur signalé par Google, d'abord cliquer sur le lien en question dans la liste (j'en ai plus en attente, mais demain avec un peu de chances, j'en aurais un ou deux qui traînent et je te ferais des copies d'écran).
                          Cherche pas, j'ai bien vu :
                          Cliquez sur l'image pour l'afficher en taille normale

Nom : gwt-erreurs-500.jpg 
Affichages : 1 
Taille : 105,2 Ko 
ID : 1803752

                          Envoyé par PieceOfCake Voir le message
                          Une fois la boîte de dialogue ouverte (après avoir cliqué sur le lien en erreur), cliquer sur référencé par, qui va te donner la liste des referrer de cette page, ceux qui ne sont de manière claire plus dans ton site actuel proviennent du cache de Google, copier le lien (clic droit copier le lien) et le passer dans (utilise une autre fenêtre GWT pour un plus grand confort) : Index > Url à supprimer, coller le lien et l'envoyer après validation (Google ou Google ET le cache),
                          Je vais tenter de procéder comme ça, en croisant les doigts pour que les URLs dont je vais demander la suppression ne soient pas elles-mêmes aussi en 500...


                          Envoyé par PieceOfCake Voir le message
                          soit Google le prend en compte, soit il te dit qu'il l'a déjà en attente de suppression. Faire pareil pour tous les referrer erronés de ce lien, terminer par le lien lui-même.
                          ....soit il me dit que ce sont des erreurs 500 et refuse de les supprimer ...

                          Envoyé par PieceOfCake Voir le message
                          2) Si tu as un lien sitemap.xml qui traîne dans tes referrer ou dans tes erreurs, supprime le sans pitié
                          C'est fort probable que je ne l'ai pas encore demandé, ça corrigera une partie du problème (sauf si, à nouveau, ces sitemaps sont considérés comme étant en erreur serveur.



                          Envoyé par PieceOfCake Voir le message
                          et rajoute une règle dans ton robots.txt,
                          C'est fait depuis longtemps, mais on dirait que Google s'en contref****


                          Envoyé par PieceOfCake Voir le message
                          (...)
                          3) Les erreurs 500, à mon avis elles doivent se produire sur des redirections de vieille url pointant sur des choses qui n'existent plus et ne peuvent donc être plus exécutées correctement par le serveur Apache, tu n'avais pas à un moment mis en place des redirections par s04hsef ou un utilitaire de ce style ?
                          Non tu sais bien, je ne savais même pas ce qu'était une redirection et je l'ai appris ici... Les seules que j'ai mises en place sont celles pour lesquelles j'ai utilisé le composant Joomla redirections.

                          PAR CONTRE :
                          mon vieux site statique était "rangé" directement à la racine de mon domaine.
                          pour installer Joomla, j'ai dû faire pointer mon domaine vers un sous-dossier de la racine.
                          Est-ce que c'est ça qui pourrait avoir mis le binz ?


                          PS : ma tentative sur le robots.txt avec la ligne "disallow : http://www.monsite.fr/html/" est restée 100% inefficace. Quand je teste une vieille URL commençant par "http://www.monsite.fr/html/", Google dit "autorisée"...


                          EDIT, IMPORTANT :des fois être conservatrice ça aide... Je viens de retrouver le tableur dans lequel j'avais enregistré les erreurs d'exploration avant les vacances. Erreurs pour lesquelles j'avais demandé à supprimer l'URL (des résultats et du cache de Google). A l'époque c'était des erreurs 404 et des erreurs 500. Aujourd'hui je n'ai PAS UNE SEULE erreur 404, je n'ai QUE des 500. Je ne vois pas la différence entre les URLS qui justifierait cette différence d'erreur...
                          Et quand je teste des URLs qui étaient des 404 en juillet... aujourd'hui elles renvoient une erreur 500 !!
                          Dernière édition par FlodAriege à 12/10/2014, 18h42
                          Flo, Ariège

                          Il n'y a que celui qui a honte d'apprendre qui a peur de demander

                          Commentaire


                          • #14
                            Re : Erreurs 500 au lieu de 404 pour pages supprimées

                            Alors, pendant mon silence, je travaillais avec l'aide de Daneel à résoudre ce problème.
                            Si ça peut servir à quelqu'un qui est hébergé chez 1&1 de comprendre pourquoi une page qui n'existe pas renvoie une erreur 500 au lieu de 404, voici, si j'ai bien tout compris, ce qui provoquait ça, et ce qu'on a fait pour résoudre le problème :

                            a) le rewriting était inactif (pourquoi je n'en sais rien, il était actif, et puis j'ai fait quelque chose à un moment donné qui l'a désactivé)
                            ==>> outre les lignes habituelles recommandées dans les tutoriels pour activer le rewriting, j'ai aussi dû décommenter la ligne :
                            RewriteBase /
                            pour que le rewriting fonctionne.
                            J'en ai profité pour supprimer index.php de mes URLs et activer la réécriture au vol.

                            b) il manquait des lignes dans le htaccess (qui avaient disparu je ne sais pas non plus pourquoi), et qui étaient :
                            # and the request is for something within the component folder,
                            # or for the site root, or for an extensionless URL, or the
                            # requested URL ends with one of the listed extensions
                            RewriteCond %{REQUEST_URI} /component/|(/[^.]*|\.(php|html?|feed|pdf|vcf|raw))$ [NC]
                            ==>> Je les ai remises en place (en fin de htaccess et apparemment ça marche)

                            Avant quand on tapait : http://mondomaine.fr/portnawak
                            ... on obtenait une erreur serveur 500 au lieu de ma page 404 (personnalisée)

                            Maintenant on obtient une erreur 404, c'est bon.

                            Du coup je pense que Google va finir par comprendre que ce qu'il identifiait comme des erreurs serveur sont en fait des 404. Le temps qu'il crawle tout ça à nouveau.
                            Pour l'aider, j'ai renvoyé mon sitemap (avec nouvelles URLs).

                            Ah oui et j'ai aussi demandé via mon robots.txt à interdire l'indexation des URLs de mon ancien site statique en ajoutant la ligne :
                            disallow : /html/

                            Voilà, donc a priori le problème est en cours de se régler.
                            Merci au grand manitou qui a été un ange de patience avec moi
                            Flo, Ariège

                            Il n'y a que celui qui a honte d'apprendre qui a peur de demander

                            Commentaire

                            Annonce

                            Réduire
                            Aucune annonce pour le moment.

                            Partenaire de l'association

                            Réduire

                            Hébergeur Web PlanetHoster
                            Travaille ...
                            X