Desindexer de vieilles url des moteurs de recherche -> robot.txt ou redirection 301 ?

Réduire
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • [RÉGLÉ] Desindexer de vieilles url des moteurs de recherche -> robot.txt ou redirection 301 ?

    Salut à tous

    Suite au passage sur joomla 3.4 d'un vieux site sous 1.5 ou je ne m'étais pas occupé de seo... Je me retrouve avec des centaines d'url qui arrivent en 404 du style
    en/boutique/11/shopbrowse
    en/boutique/15/shopbrowse
    en/boutique/6/flypagetpl/shopask/87
    en/boutique/7/30/shopbrowse/1/page-25
    et je vous fais grâce des autres du style
    fr/boutique?category_id=9&page=shop.browse&limit=10&s tart=10
    etc...
    Bon alors maintenant c'est plus propre sur www.terredegraines.fr
    J'ai fais des catégories, utilisé sh404sef, retravaillé les meta et tous le reste, maintenant... chaque fois les bots de google et les autres recherchent ces vieilles url en permanence...
    J'ai commencé à supprimer un paquet d'url dans la search console de google, mais c'est un long travail et il y a tous les autres bots...
    Que pensez vous ? Le mieux est il :

    1. De faire une redirection 301 qui dise en gros "toutes les requetes qui comprennent le mot "shopbrowse" "flypagetpl" et "shopask" -> tu les envoies vers www.terredegraines.fr/boutique

    2. De mettre des règles dans mon robot.txt je pensais notamment à
    Disallow: /*shopbrowse*
    Disallow: /*shopask*
    Disallow: /*flypagetpl*

    3. De supprimer le plus possible d'anciens url dans search console de google puis bing puis...

    Merci de vos conseils !

  • #2
    Re : Desindexer de vieilles url des moteurs de recherche -> robot.txt ou redirection

    Le robots.txt est une mauvaise idée, tu bloques le crawl, les 404 resteront indexées, les bots ne pourront pas prendre en compte les 301.

    -Lister toutes les url en 404
    -Redirections 301 page par page, c'est à dire que l'ancienne page X doit pointer vers la nouvelle page X, si pas de correpondance tu envoies vers boutique.
    -Suppression du cache google et désindexation des anciennes url : search console => index google => url à supprimer =>masquer temporairement => supprimer la page de l'index et du cache.
    -Faire un fichier temporaire sitemap_desindexe.txt dans lequel il y a toutes tes url en 404, une par ligne. Ca va accelerer le crawl et la prise en compte des 301
    et/ou
    -Search console => exploration => explorer comme google => explorer => envoyer pour indexation. Tu demandes au bot de crawler ton ancienne url, il va te dire "redirection". Et voilà, pour chaque url.
    -Puis Search console => exploration => erreurs d'exploration : marquer comme corrigées les 404
    Dernière édition par -Tony- à 18/12/2015, 09h05

    Commentaire


    • #3
      Re : Desindexer de vieilles url des moteurs de recherche -> robot.txt ou redirection

      Bponjour,

      le mieux ne me semble pas être l'un ou l'autre !! mais de faire les trois.

      La solution 1 va te permettre de régler l'immédiat. J'ai juste tendance à me méfier des interactions entre les règles de redirection que tu peux placer dans ton fichier .htaccess et sh404sef donc méfiance et tests à faire par petites tranches

      La solution 2 va empêcher Google d'examiner et indexer les urls que tu proposes. Ceci dit si elles n'existent plus, il ne risque pas de les examiner et les indexer sauf en repartant de ses archives (ce qui ne l'empêchera pas de le faire, puisque par définition ces urls sont déjà indexées et que tu ne peux hélas qu'attendre qu'elle disparaissent petit à petit).

      La solution 3 permet de gagner du temps. Mais c'est tout ! Que ce soit Google ou Bing, les solutions visant à "supprimer les urls" ne les suppriment des résultats de recherche . Si elles sont déjà indexées elles le restent.

      Cordialement
      Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

      Commentaire


      • #4
        Re : Desindexer de vieilles url des moteurs de recherche -> robot.txt ou redirection

        Envoyé par PieceOfCake Voir le message
        Bponjour,

        La solution 3 permet de gagner du temps. Mais c'est tout ! Que ce soit Google ou Bing, les solutions visant à "supprimer les urls" ne les suppriment des résultats de recherche . Si elles sont déjà indexées elles le restent.
        Bien sur que non...ca serait une catastrophe pour le seo sinon.
        Elles ne le restent seulement si l'url reste accessible et en meta robots : index ou si le bot ne peut recrawler la page et n'a que son cache.
        Si la page qui a été crawlée pendant le delai de suppression temporaire est en noindex, elle n'est plus indexée.
        Si la page qui a été crawlée pendant le delai de suppression temporaire est en 301, c'est la nouvelle page qui est indexée, plus l'ancienne.

        C'est juste une question de méthodologie.


        La solution 2 va empêcher Google d'examiner et indexer les urls que tu proposes. Ceci dit si elles n'existent plus, il ne risque pas de les examiner et les indexer sauf en repartant de ses archives (ce qui ne l'empêchera pas de le faire, puisque par définition ces urls sont déjà indexées et que tu ne peux hélas qu'attendre qu'elle disparaissent petit à petit).

        Donc ne pas utiliser le robots.txt, voir méthodologie dans mon premier message.

        Commentaire


        • #5
          Re : Desindexer de vieilles url des moteurs de recherche -> robot.txt ou redirection

          Ok donc pas de robot.txt, ensuite

          Envoyé par -Tony- Voir le message
          -Lister toutes les url en 404
          -Redirections 301 page par page, c'est à dire que l'ancienne page X doit pointer vers la nouvelle page X, si pas de correpondance tu envoies vers boutique.
          Pour la liste, c'est pas difficile, elle réapparait tous les jours dans les 404 de sh404sef, je fais un export et ca marche.
          Pour les redirections page par page, on peut le faire sur sh404sef, mais il faut dire que c'est un GROS changement, les anciens produits ne correspondent plus vraiment aux nouveaux produits. Comme de toute facon mon référencement est naze pour ces produits, je préfère renvoyer toutes les pages style boutique/6/flypagetpl/shopask/87 -> www.terredegraines/boutique
          Je ne sais pas si c'est une bonne solution, mais je n'en vois pas d'autre ?

          Pour faire cela, si je passe par les alias de sh404sef le souci est que ca va me faire 350 alias pour l'url www.terredegraines/boutique
          Or d'apres leur doc, mettre trop d'alias ralentit énormément le site...
          Je pourrai passer par .htaccess mais comment faire pour lui dire
          "stp tout ce qui contient le mot flypage, shopask ou shopbrowse tu me renvoies ca vers /boutique"...
          ? Bon je suis débutant.

          Envoyé par -Tony- Voir le message
          -Suppression du cache google et désindexation des anciennes url : search console => index google => url à supprimer =>masquer temporairement => supprimer la page de l'index et du cache.
          Je sais pas comment on supprime le cache google, mais pour supprimer les url j'ai compris et déjà commencé, je signale d'ailleurs aux lecteurs une super macro pour firefox pour supprimer une liste d'url foireuses

          Petit probleme : il faudrait adapter la macro à bing ? et yahoo bot ?

          Envoyé par -Tony- Voir le message
          -Faire un fichier temporaire sitemap_desindexe.txt dans lequel il y a toutes tes url en 404, une par ligne. Ca va accelerer le crawl et la prise en compte des 301
          et/ou
          -Search console => exploration => explorer comme google => explorer => envoyer pour indexation. Tu demandes au bot de crawler ton ancienne url, il va te dire "redirection". Et voilà, pour chaque url.
          -Puis Search console => exploration => erreurs d'exploration : marquer comme corrigées les 404
          Alors ca c'est intéressant ! Mais je fais quoi avec ce sitemap_desindexe.txt ? Je le mets où ?
          Sinon pour explorer comme google, je comprend mais il va me falloir une macro, sinon cliquer 350 fois ca parait pas trop possible ?


          Dernière remarque : en ce moment, les robots sont tous en train d'essayer de chercher les anciennes url sur mon site, ne serait il pas utile de bloquer au moins quelques uns d'entre eux ?
          J'ai vu que le monde.fr par exemple en bloquait pas mal, un extrait de la liste en suite

          Code:
          User-agent: k2spider
          User-agent: libwww
          User-agent: wget
          User-agent: 5erue
          User-agent: adequat
          User-agent: adequat-systems
          User-agent: auramundi
          User-agent: coexel
          User-agent: ellisphere
          User-agent: leadbox
          User-agent: mention
          User-agent: Moreover
          User-agent: mytwip
          User-agent: NewsNow
          User-agent: Newzbin
          User-agent: opinion-tracker
          User-agent: proxem
          User-agent: score3
          User-agent: trendeo
          User-agent: vecteurplus
          User-agent: verticalsearch
          User-agent: vsw
          User-agent: winello
          User-agent: Fetch
          User-agent: infoseek
          User-agent: MSIECrawler
          User-agent: Offline Explorer
          User-agent: sitecheck.internetseer.com
          User-agent: SiteSnagger
          User-agent: Teleport
          User-agent: TeleportPro
          User-agent: WebCopier
          User-agent: WebStripper
          User-agent: Zealbot
          User-agent: asknread.com
          User-agent: ellisphere
          User-agent: spotter
          Je signale que dans search console j'ai 537 url indexées alors que le nouveau sitemap que je leur ai fourni en contient 200. L'ancien site était vraiment mal foutu, faute notamment au routeur joomla et double indexation avec contenu anglais/francais
          J'espère que le nouveau sitemap sera pris en compte rapidement, pour l'instant le nombre d'url indexees n'a pas baissé mais plutot meme augmenté
          Dernière édition par romainduf à 18/12/2015, 10h58

          Commentaire


          • #6
            Re : Desindexer de vieilles url des moteurs de recherche -> robot.txt ou redirection

            Code:
            RewriteRule ^((.*)flypage(.*)|(.*)shopask(.*)|(.*)shopbrowse(.*))$ http://www.terredegraines.fr/boutique [R=301,L]
            Pour supprimer la page en cache, voir ma première réponse, tu as le choix entre url seulement/url et cache/cache seulement.

            A la mano une par une. Quelques heures de taff.

            Ce sitemap tu le mets à la racine du site avec l'autre et tu le soumets à google. Tu l'enlèves quand tout est réglé.

            Si tu les bloques tu ne pourra pas résoudre tes 404.

            Donc tu as 337 url à désindexer et/ou prise en compte de 301.

            C'est un long travail.

            Commentaire


            • #7
              Re : Desindexer de vieilles url des moteurs de recherche -> robot.txt ou redirection

              Envoyé par romainduf Voir le message

              J'ai vu que le monde.fr par exemple en bloquait pas mal, un extrait de la liste en suite

              Code:
              User-agent: k2spider
              User-agent: libwww
              User-agent: wget
              User-agent: 5erue
              User-agent: adequat
              User-agent: adequat-systems
              User-agent: auramundi
              User-agent: coexel
              User-agent: ellisphere
              User-agent: leadbox
              User-agent: mention
              User-agent: Moreover
              User-agent: mytwip
              User-agent: NewsNow
              User-agent: Newzbin
              User-agent: opinion-tracker
              User-agent: proxem
              User-agent: score3
              User-agent: trendeo
              User-agent: vecteurplus
              User-agent: verticalsearch
              User-agent: vsw
              User-agent: winello
              User-agent: Fetch
              User-agent: infoseek
              User-agent: MSIECrawler
              User-agent: Offline Explorer
              User-agent: sitecheck.internetseer.com
              User-agent: SiteSnagger
              User-agent: Teleport
              User-agent: TeleportPro
              User-agent: WebCopier
              User-agent: WebStripper
              User-agent: Zealbot
              User-agent: asknread.com
              User-agent: ellisphere
              User-agent: spotter
              Non pas du tout ta copie de leur robots.txt est incomplète, ils bloquent des bots.

              Commentaire


              • #8
                Re : Desindexer de vieilles url des moteurs de recherche -> robot.txt ou redirection

                Merci Tony

                Par contre je viens d'ajouter ta règle en bas de mon .htacess que j'ai mis en ligne, j'ai vidé le cache, mais ca n'as pas l'air de marcher, par ex pour
                Code:
                boutique/15/flypagetpl/shopproduct_details/56
                -> toujours 404

                Pour virer urls j'ai compris, je vais utiliser de nouveau la super macro, j'avais pas vu qu'il y avait plusieurs options de suppression.
                Quand tout fontionnera j'ajouterai le sitemap a la racine
                Dernière édition par romainduf à 07/01/2016, 12h57

                Commentaire


                • #9
                  Re : Desindexer de vieilles url des moteurs de recherche -> robot.txt ou redirection

                  La syntaxe de la rewrite est correcte pour moi. (?)

                  Mets là juste après :

                  Code:
                  ## Mod_rewrite in use.
                  
                  RewriteEngine On
                  Décommentes également :

                  Code:
                  # RewriteBase /
                  Tu le mets là :

                  Code:
                  ## Mod_rewrite in use.
                  
                  RewriteEngine On
                  RewriteBase /
                  
                  #Ta règle
                  Dernière édition par -Tony- à 18/12/2015, 13h40

                  Commentaire


                  • #10
                    Re : Desindexer de vieilles url des moteurs de recherche -> robot.txt ou redirection

                    Bon je copie mon fichier complet actuel pour être sûr du coup

                    C'est quoi ce RewriteBase / ? Pourquoi il est pas déjà décommenté ?
                    Ca t'ennuie de regarder si il y a pas d'autres bugs dans mon fichier htaccess ?

                    Code:
                    RewriteCond %{HTTP_HOST} ^terredegraines.fr$ 
                    RewriteRule ^(.*) http://www.terredegraines.fr/$1 [QSA,L,R=301]
                    php_value allow_url_fopen On
                    
                    ##
                    # @package    Joomla
                    # @copyright  Copyright (C) 2005 - 2015 Open Source Matters. All rights reserved.
                    # @license    GNU General Public License version 2 or later; see LICENSE.txt
                    ##
                    
                    ##
                    # READ THIS COMPLETELY IF YOU CHOOSE TO USE THIS FILE!
                    #
                    # The line just below this section: 'Options +FollowSymLinks' may cause problems
                    # with some server configurations.  It is required for use of mod_rewrite, but may already
                    # be set by your server administrator in a way that disallows changing it in
                    # your .htaccess file.  If using it causes your server to error out, comment it out (add # to
                    # beginning of line), reload your site in your browser and test your sef url's.  If they work,
                    # it has been set by your server administrator and you do not need it set here.
                    ##
                    
                    ## No directory listings
                    IndexIgnore *
                    
                    ## Can be commented out if causes errors, see notes above.
                    Options +FollowSymlinks
                    Options -Indexes
                    
                    ## Mod_rewrite in use.
                    
                    RewriteEngine On
                    
                    ## Begin - Rewrite rules to block out some common exploits.
                    # If you experience problems on your site block out the operations listed below
                    # This attempts to block the most common type of exploit `attempts` to Joomla!
                    #
                    # Block out any script trying to base64_encode data within the URL.
                    RewriteCond %{QUERY_STRING} base64_encode[^(]*\([^)]*\) [OR]
                    # Block out any script that includes a <script> tag in URL.
                    RewriteCond %{QUERY_STRING} (<|%3C)([^s]*s)+cript.*(>|%3E) [NC,OR]
                    # Block out any script trying to set a PHP GLOBALS variable via URL.
                    RewriteCond %{QUERY_STRING} GLOBALS(=|\[|\%[0-9A-Z]{0,2}) [OR]
                    # Block out any script trying to modify a _REQUEST variable via URL.
                    RewriteCond %{QUERY_STRING} _REQUEST(=|\[|\%[0-9A-Z]{0,2})
                    # Return 403 Forbidden header and show the content of the root homepage
                    RewriteRule .* index.php [F]
                    #
                    ## End - Rewrite rules to block out some common exploits.
                    
                    ## Begin - Custom redirects
                    #
                    # If you need to redirect some pages, or set a canonical non-www to
                    # www redirect (or vice versa), place that code here. Ensure those
                    # redirects use the correct RewriteRule syntax and the [R=301,L] flags.
                    #
                    ## End - Custom redirects
                    
                    ##
                    # Uncomment following line if your webserver's URL
                    # is not directly related to physical file paths.
                    # Update Your Joomla! Directory (just / for root).
                    ##
                    
                    # RewriteBase /
                    
                    ## Begin - Joomla! core SEF Section.
                    #
                    RewriteRule .* - [E=HTTP_AUTHORIZATION:%{HTTP:Authorization}]
                    #
                    # If the requested path and file is not /index.php and the request
                    # has not already been internally rewritten to the index.php script
                    RewriteCond %{REQUEST_URI} !^/index\.php
                    # and the requested path and file doesn't directly match a physical file
                    RewriteCond %{REQUEST_FILENAME} !-f
                    # and the requested path and file doesn't directly match a physical folder
                    RewriteCond %{REQUEST_FILENAME} !-d
                    # internally rewrite the request to the index.php script
                    RewriteRule .* index.php [L]
                    #
                    ## End - Joomla! core SEF Section.
                    
                    
                    ## BEGIN EXPIRES CACHING - JCH OPTIMIZE ##
                    <IfModule mod_expires.c>
                      ExpiresActive on
                    
                    # Perhaps better to whitelist expires rules? Perhaps.
                      ExpiresDefault "access plus 1 month"
                    
                    # cache.appcache needs re-requests in FF 3.6 (thanks Remy ~Introducing HTML5)
                      ExpiresByType text/cache-manifest "access plus 0 seconds"
                    
                    # Your document html
                      ExpiresByType text/html "access plus 0 seconds"
                    
                    # Data
                      ExpiresByType text/xml "access plus 0 seconds"
                      ExpiresByType application/xml "access plus 0 seconds"
                      ExpiresByType application/json "access plus 0 seconds"
                    
                    # Feed
                      ExpiresByType application/rss+xml "access plus 1 hour"
                      ExpiresByType application/atom+xml "access plus 1 hour"
                    
                    # Favicon (cannot be renamed)
                      ExpiresByType image/x-icon "access plus 1 week"
                    
                    # Media: images, video, audio
                      ExpiresByType image/gif "access plus 1 month"
                      ExpiresByType image/png "access plus 1 month"
                      ExpiresByType image/jpg "access plus 1 month"
                      ExpiresByType image/jpeg "access plus 1 month"
                      ExpiresByType video/ogg "access plus 1 month"
                      ExpiresByType audio/ogg "access plus 1 month"
                      ExpiresByType video/mp4 "access plus 1 month"
                      ExpiresByType video/webm "access plus 1 month"
                    
                    # HTC files (css3pie)
                      ExpiresByType text/x-component "access plus 1 month"
                    
                    # Webfonts
                      ExpiresByType application/x-font-ttf "access plus 1 month"
                      ExpiresByType font/opentype "access plus 1 month"
                      ExpiresByType application/x-font-woff "access plus 1 month"
                      ExpiresByType image/svg+xml "access plus 1 month"
                      ExpiresByType application/vnd.ms-fontobject "access plus 1 month"
                    
                    # CSS and JavaScript
                      ExpiresByType text/css "access plus 1 year"
                      ExpiresByType text/javascript "access plus 1 year"
                      ExpiresByType application/javascript "access plus 1 year"
                    
                      <IfModule mod_headers.c>
                        Header append Cache-Control "public"
                      </IfModule>
                    
                    </IfModule>
                    ## END EXPIRES CACHING - JCH OPTIMIZE ##
                    
                    RewriteRule ^((.*)flypage(.*)|(.*)shopask(.*)|(.*)shopbrowse(.*))$ http://www.terredegraines.fr/boutique [R=301,L]
                    Dernière édition par romainduf à 18/12/2015, 14h52

                    Commentaire


                    • #11
                      Re : Desindexer de vieilles url des moteurs de recherche -&gt; robot.txt ou redirection

                      Pas de bugs mais :



                      Essayes.

                      Commentaire


                      • #12
                        Re : Desindexer de vieilles url des moteurs de recherche -&gt; robot.txt ou redirection

                        Génial, ca fonctionne maintenant la redirection 301 suite à ce
                        RewriteBase /

                        Ca fait quoi en fait exactement ?

                        Par contre je n'ai pas compris le rapport avec la négociation, le lien que tu as mis ? J'ai regardé la page mais ca me sert à quoi ?

                        Commentaire


                        • #13
                          Re : Desindexer de vieilles url des moteurs de recherche -&gt; robot.txt ou redirection

                          Lis la doc rewrite apache M'sieur romainduf

                          google => rewritebase apache

                          Commentaire


                          • #14
                            Re : Desindexer de vieilles url des moteurs de recherche -&gt; robot.txt ou redirection

                            Ok, merci Tony je vais lire ca tranquillement, ainsi que le reste du lien.
                            Reste deux questions importantes si tu as le temps :

                            1. pourquoi dans les 404 récoltés par sh404sef j'ai encore des liens du style (comment ils arrivent là ??)
                            administrator/
                            apple-touch-icon-precomposed.png
                            atom
                            artiste/css/styles.css
                            bootstrap.min.js
                            dp/B00IRKMZX0
                            jquery-noconflict.js
                            index.php
                            {$sitemapURL}

                            Il reste aussi quelques liens comme celui ci qui ne sont pas redirigés :
                            Code:
                            index2.php?page=shop.product_details&flypage=flypage.tpl&product_id=18&category_id=12&option=com_virtuemart&Itemid=63
                            Dans ce cas, pas de redirection, mais simplement une page "file not found"... comment virtuemart et joomla ont pu me pondre tant d'url foireuses... je ne sais pas mais beau travail quand même.

                            2. que faire pour les autres moteurs de recherche que google ? Dois je aussi chercher à désindexer pour bing, yahoo, etc ? Ou je m'en occupe pas ?
                            Dernière édition par romainduf à 07/01/2016, 12h58

                            Commentaire


                            • #15
                              Re : Desindexer de vieilles url des moteurs de recherche -&gt; robot.txt ou redirection

                              Bon, Tony est décédé ?

                              Je mets en "réglé". Tant pis pour les derniers liens. Je n'ai pas résolu mes dernieres questions.

                              Commentaire

                              Annonce

                              Réduire
                              Aucune annonce pour le moment.

                              Partenaire de l'association

                              Réduire

                              Hébergeur Web PlanetHoster
                              Travaille ...
                              X