Indexée malgré le blocage par le fichier robots.txt

Réduire
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • Indexée malgré le blocage par le fichier robots.txt

    Bonjour,
    Depuis ce matin, j'ai ce message de Google via la Search Console.
    Quand je vais voir l'url en question, ça m'amène sur la page de recherche. Je n'ai jamais mis en place cette page, donc aucun article ou élément de menu pointe sur cette page via Joomla!.
    Comme éviter que cette page soit indexer ?
    Le lien ressemble à ça : http://www.monsite.com/index.php?opt...rase=all&searc hword={search_term}
    Dernière édition par nano à 17/05/2020, 08h06

  • #2
    Bonjour

    Que contient ton fichier robots.txt ? Si je te comprends bien, tu aurais déjà mis une règle en place pour ce blocage...

    Ci-dessous un code qui devrait faire l'affaire il me semble (non testé)

    Code:
    User-agent: *
    Disallow: /index.php?option=com_search
    En mode SEF (réécriture), ce serait :

    Code:
    User-agent: *
    Disallow: /*com_search*/
    Christophe (cavo789)
    Mon blog, on y parle Docker, PHP, WSL, Markdown et plein d'autres choses : https://www.avonture.be
    Logiciel gratuit de scan antivirus : https://github.com/cavo789/aesecure_quickscan (plus de 45.000 virus détectés, 700.000 fichiers sur liste blanche)​

    Commentaire


    • #3
      Salut Christophe et merci de ton aide.

      Voici le code de mon fichier robots.txt

      Code:
      Disallow: /administrator/
      Disallow: /bin/
      Disallow: /cache/
      Disallow: /cli/
      Disallow: /components/
      Disallow: /includes/
      Disallow: /installation/
      Disallow: /language/
      Disallow: /layouts/
      Disallow: /libraries/
      Disallow: /logs/
      Disallow: /media/
      Disallow: /modules/
      Disallow: /plugins/
      Disallow: /templates/
      Disallow: /tmp/
      Disallow: /*.php$
      Disallow: /*.inc$
      Disallow: /*.gz$
      Disallow: /*.pdf$
      Disallow: /*?*
      Disallow: /*?
      Disallow: /*&
      Je ne sais même pas d'où elle sort cette page !

      Commentaire


      • #4
        Bonjour,

        En toute franchise, c'est un peu n'importe quoi ton fichier robots.txt
        Tu peux expliquer les derniers disallow après le tmp ? et le user-agent ?


        Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

        Commentaire


        • #5
          Autant pour moi, j'ai oublié de coller le user-agent qui se trouve tout en haut de ces lignes. User-agent: *
          Les disallow après le tmp, j'ai vu lu ça sur un tutto, qui disait qu'il était bien de bloquer ce genre de fichier

          Commentaire


          • #6
            salut les 3 dernieres lignes peuvent se comprendre car tu bloque les url non réecrite, mais bloquer les pdf, les fichiers php ne me semble pas être le mieux. Les fichiers gz sont des fichiers compréssés envoyé au navigateur quand tu as activé le paramètre correspondant . Car si tu as un composant qui les necessite, tu est dans le misère.

            PS:tu n'as pas un module de recherche?
            Cette page existe car le composant est actif.

            Commentaire


            • #7
              Salut et merci Fab, je vais rectifier mon fichier alors.
              Non, je n'ai pas de module de recherche en place sur mon site, donc si je comprends bien, il me suffit de désactiver le composant afin que Google n'indexe pas cette page ?

              Commentaire


              • #8
                A tester, mais je pense que oui.

                D'autant plus que la requete de recherche est all, donc sur tout ce qui est indéxé.

                Commentaire


                • #9
                  Super, merci à vous 3

                  Commentaire


                  • #10
                    Petite précision : les directives du robots.txt empêche le crawl de la page, pas son indexation. Si vous voulez vraiment empêcher cette dernière, vous devez mettre "noindex" comme "meta robots" dans l'en-tête de la page.
                    Tous les services pour les sites Joomla! : sécurité, nettoyage de sites piratés, hébergement, SEO, applications Fabrik, migration, compatibilité mobiles, accessibilité, ...
                    Administrateur certifié Joomla! 3
                    https://www.betterweb.fr

                    Commentaire


                    • #11
                      Merci, désolé d'avoir été un peu trop direct. Le plus simple étant de revenir au fichier robots.txt par défaut. Avant d'appliquer certaines modifications vu dans des tutoriels, n'hésite pas à poser la question sur le forum. Ce serait intéressant de nous dire si ces modifications récentes ont eu un impact sur ton référencement, si tu as pris le temps d'évaluer tes changements.

                      En général, Il y a beaucoup de risque à interdire les moteurs de recherche et Il y a d'autres moyens de bloquer une partie du site. Il faut connaître par exemple la différence entre robots.txt, x-robots-tag et le noindex que l'on peut définir dans l'entête des pages.

                      Pour ton problème d'url qui n'a pas été réécrite... Bien que supprimé ou désactivé, le module de recherche devait être actif au moment du passage du robot, cela arrive assez souvent. Il faut se rappeler que certaines fonctionnalités nécessitent d'avoir des liens de menu. Le module de recherche par exemple a besoin d'avoir le lien de menu correspondant au formulaire de recherche. C'est le cas également de la page de création de compte, de connexion ou rappel de mot de passe. Sinon, on se retrouve avec des indexations d'url non-sef de composant appelé par différents liens présent dans le site comme les modules natifs.

                      Perso, j'ai toujours créé un menu supplémentaire pour intégrer ces liens, on le nomme souvent menu caché car il n'est pas affiché publiquement mais permet de contrôler (comme pour les autres liens) la mise en page, l'assignation de module, l'accès et le référencement.

                      Comme l'indique leFabdu51, tu peux effectivement désactiver la recherche, rediriger...

                      C'est l'occasion également de découvrir deux extensions intéressantes :
                      - NSTS - Non-SEF to SEF : https://extensions.joomla.org/extension/non-sef-to-sef/
                      - Advance redirect : https://extensions.joomla.org/extens...ancedredirect/

                      Pour info, on peut utiliser robotx.txt pour indiquer le lien du sitemap xml aux autres moteurs de recherche, cela fonctionne plutôt bien.

                      Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

                      Commentaire


                      • #12
                        Merci pour vos infos.
                        Tu n'as pas t'excuser Yann, je ne l'ai pas mal prit. Si c'est de la me... faut le dire, pas de soucis pour moi c'est comme ça que l'on avance

                        Pour le noindex, généralement je l'indique dans mon lien de menu pour éviter l'indexation. Le site en question est sur google que depuis quelques jours, donc difficile de mesurer l'impact du référencement.
                        J'ai juste du mal à comprendre comment cette page a pu être indexée et de plus visitée alors qu'il n'y a aucun lien de menu qui l'appelle sur mon site.

                        En ce qui concerne le lien du sitemap, je l'ai ajouté également.

                        Commentaire


                        • #13
                          C'est l'occasion également de découvrir deux extensions intéressantes :
                          - NSTS - Non-SEF to SEF : https://extensions.joomla.org/extension/non-sef-to-sef/
                          - Advance redirect : https://extensions.joomla.org/extens...ancedredirect/
                          Bonjour daneel , j'ai installé le plugin NSTS - Non-SEF to SEF, qui à l'air très intéressant pour mon cas.
                          Mise à part l'installer et l'activer, il y a autre choses à faire ?

                          Merci de ton aide.

                          Commentaire


                          • #14
                            Envoyé par nano Voir le message

                            Mise à part l'installer et l'activer, il y a autre choses à faire ?

                            Merci de ton aide.
                            bonjour, non c'est automatique, suffit juste de vérifier que le plugin soit activé.
                            Tu peux eventuellement exclure un composant quand celui-ci n'est pas compatible mais c'est assez rare

                            Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

                            Commentaire


                            • #15
                              Super merci

                              Commentaire

                              Annonce

                              Réduire
                              Aucune annonce pour le moment.

                              Partenaire de l'association

                              Réduire

                              Hébergeur Web PlanetHoster
                              Travaille ...
                              X