Adresses bidon répertoriées comme 404 par Google ?

Réduire
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • Adresses bidon répertoriées comme 404 par Google ?

    Bonjour à tous !

    J'ai un problème au niveau des outils Google : des tas d'adresses sur le site d'une cliente sont répertoriées comme incorrectes, donnant des erreurs 404 (qui renvoient vers l'accueil du site).
    Le site comporte deux plans, l'un xMap, l'autre spécifique à Virtuemart, et quand on cherche dans ces plans les adresses que Google nous dit introuvables, elles n'y sont pas.
    La question est donc de savoir comment Google peut "inventer" ces adresses inexistantes (plus de 1500 récemment) et le reprocher au webmaster !!!

    Vous est-il arrivé de rencontrer de telles erreurs incompréhensibles ? Si oui, qu'avez-vous fait pour les éliminer ?

    Merci de votre aide !
    Robert
    "Patience et longueur de temps font plus que force ni que rage..." (La Fontaine : Le Lion et le Rat) - "Il n'y a pas de problèmes; il n'y a que des solutions" (André Gide).
    MoovJla et LazyDbBackup sur www.joomxtensions.com - FaQ sur www.fontanil.info - Site pro : www.robertg-conseil.fr et sites perso chez PlanetHoster + sites gérés chez PHPNET, 1and1 et OVH

  • #2
    Re : Adresses bidon répertoriées comme 404 par Google ?

    Salut Robert

    Quelles sont ces URLs => peuvent-elles être générées via un hack du site pour promouvoir des sacs à main, etc.

    Il faudrait peut-être surfer sur ton site "comme Google" afin de voir si tu n'aurais pas un script qui générerait ce type de lien seulement lorsque c'est un bot de moteur de recherche qui crawle ton site.

    Un site qui permet de surfer "comme Google" : https://www.xml-sitemaps.com/se-bot-simulator.html
    Dernière édition par cavo789 à 02/04/2017, 10h14
    Christophe (cavo789)
    Logiciel gratuit de scan antivirus : https://github.com/cavo789/aesecure_quickscan (plus de 45.000 virus détectés, 700.000 fichiers sur liste blanche)
    Développeur de marknotes, logiciel de gestion de prises de notes avec interface web et de multiples convertisseur https://github.com/cavo789/marknotes
    Mes logiciels OpenSource : https://www.avonture.be

    Commentaire


    • #3
      Re : Adresses bidon répertoriées comme 404 par Google ?

      Merci Christophe,

      Non, ce sont des adresses qui pourraient en effet être celles du site (en tout cas celles dont on a parlé avec ma cliente), mais où par exemple, il manque l'alias de la catégorie de produit : nomdedomaine/pageproduit au lieu par exemple de nomdusite/categorie/souscategorie/pageproduit.

      Je vais essayer de voir avec ton lien.
      "Patience et longueur de temps font plus que force ni que rage..." (La Fontaine : Le Lion et le Rat) - "Il n'y a pas de problèmes; il n'y a que des solutions" (André Gide).
      MoovJla et LazyDbBackup sur www.joomxtensions.com - FaQ sur www.fontanil.info - Site pro : www.robertg-conseil.fr et sites perso chez PlanetHoster + sites gérés chez PHPNET, 1and1 et OVH

      Commentaire


      • #4
        Re : Adresses bidon répertoriées comme 404 par Google ?

        PieceOfCake a écrit un long article sur le routeur de joomla dans un magazine de cinnk. C'était en octobre 2016 si je m'abuse. Peut-être pourrais-tu y trouver une idée.
        Christophe (cavo789)
        Logiciel gratuit de scan antivirus : https://github.com/cavo789/aesecure_quickscan (plus de 45.000 virus détectés, 700.000 fichiers sur liste blanche)
        Développeur de marknotes, logiciel de gestion de prises de notes avec interface web et de multiples convertisseur https://github.com/cavo789/marknotes
        Mes logiciels OpenSource : https://www.avonture.be

        Commentaire


        • #5
          Re : Adresses bidon répertoriées comme 404 par Google ?

          Pour l'instant, sur l'accueil du site, cet outil me donne 90 URL, dont une seule a perdu son alias de menu ou de catégorie.
          Reste à essayer de comprendre comment une telle adresse a pu être générée (ancien lien dans un article ?).

          Sais-tu s'il existe des utilitaires pour chercher ces adresses obsolètes dans un site ?
          "Patience et longueur de temps font plus que force ni que rage..." (La Fontaine : Le Lion et le Rat) - "Il n'y a pas de problèmes; il n'y a que des solutions" (André Gide).
          MoovJla et LazyDbBackup sur www.joomxtensions.com - FaQ sur www.fontanil.info - Site pro : www.robertg-conseil.fr et sites perso chez PlanetHoster + sites gérés chez PHPNET, 1and1 et OVH

          Commentaire


          • #6
            Re : Adresses bidon répertoriées comme 404 par Google ?

            Bonjour RobertG,

            Le routeur actuel de Joomla! est, il faut bien le dire une triste passoire
            Au mois de septembre ou octobre de l'année dernière, j'ai été victime d'un hackeur qui a tenté (sans réussite) de prendre le contrôle de mon site, il a juste réussi à le faire fermer quelques heures par mon hébergeur car les liens qu'il générait retournaient des pages html d'une taille monstrueuse (plus de 300 Ko) à la vitesse de 5 ou 10 à la seconde ça remplit vite la bande passante.

            Comme je l'ai expliqué dans l'article qui a suivi ce triste exploit il est probable que le hacker est parti d'une adresse réelle et a généré à la volée des urls bidonnées jusqu'à en trouver qui fonctionnent et retournent autre chose que des 404.

            Mais il est vrai comme l'avait constaté Christophe à l'époque les urls semblaient bien réelles ou en tout cas plausibles. En tout cas pour Google, pas de doute la page n'existait pas vraiment donc il enregistrait une erreur 404 reportée normalement dans le search console

            Cordialement
            Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

            Commentaire


            • #7
              Re : Adresses bidon répertoriées comme 404 par Google ?

              Merci à toi !
              Mais ce que j'ai du mal à comprendre, c'est que Google enregistre des pages à partir de requêtes, indépendamment des plans de sites fournis.
              Récemment, il y a eu des erreurs 503 probablement par des attaques de ce type, il en restait 26 répertoriées hier.
              Par contre, j'ai noté sur l'accueil un lien en erreur parce qu'il avait été saisi en dur (uniquement l'adresse finale de la page, sans sa catégorie) et je crains qu'il y en ait d'autre du même type, le problème étant d'arriver à les repérer.
              J'ai tenté l'outil du W3C, mais il m'a renvoyé des erreurs 500 sur des pages que je pouvais afficher sans erreur !

              Précision : certaines adresses de liens dans des articles Joomla! ou Virtuemart ont été insérés par la propriétaire du site avant l'utilisation de JCE et sous forme d'adresse réécrite, qui a pu changer plus tard avec l'installation de sh404SEF... Ce sont ces adresses qu'il faudrait que je puisse vérifier et tester.
              Dernière édition par RobertG à 03/04/2017, 09h09
              "Patience et longueur de temps font plus que force ni que rage..." (La Fontaine : Le Lion et le Rat) - "Il n'y a pas de problèmes; il n'y a que des solutions" (André Gide).
              MoovJla et LazyDbBackup sur www.joomxtensions.com - FaQ sur www.fontanil.info - Site pro : www.robertg-conseil.fr et sites perso chez PlanetHoster + sites gérés chez PHPNET, 1and1 et OVH

              Commentaire


              • #8
                Re : Adresses bidon répertoriées comme 404 par Google ?

                Mais ce que j'ai du mal à comprendre, c'est que Google enregistre des pages à partir de requêtes, indépendamment des plans de sites fournis.
                Mais simplement Google n'a jamais dit qu'un sitemap.xml était l'outil exclusif d'indexation, dans ses pages d'aide Google parle d'ailleurs d'accélérer l'indexation d'un site grâce à un tel fichier.

                La méthode naturelle d'indexation de Google consiste à démarrer de l'url vierge du site et donc de la page d'accueil pour parcourir l'arborescence en descendant de plus en plus bas ce qui évidemment est coûteux en temps. Si tu regardes sur Search Console (ex admin web tools) dans la rubrique Exploration > Statistiques sur l'exploration, tu verras que périodiquement (sur mon site de petite détail c'est environ une fois par mois), Google parse énormément d'urls, bien plus qu'il n'y a d'articles réels dans mon site (c'est entre autre parce que certaines pages peuvent atteintes de différentes manières et que le routeur ne nous aide pas sur ce coup là), cela indique qu'une fois par mois en moyenne Google descend toute l'architecture de mon site en partant de la page d'accueil cela garantit aussi que si tu n'as pas un outil de fabrication automatique de sitemap (comme celui de xMap ou de OSMap) pour tenir à jour ton indexation, Google trouvera toujours les pages que tu auras oublié de déclarer.

                A contrario si tu ne veux faire indexer que les pages déclarés dans le sitemap il faut les déclarer manuellement et ne pas oublier de placer un NOINDEX, NOFOLLOW sur toutes les autres.
                Note bien que dans ce dernier cas, ça n'empêchera aucunement Google d'en indexer d'autres, celles qu'il trouve tout seul où même celles tapées par un utilisateur, un hacker, ou un bot ... (liste non exclusive) qui peuvent être farfelues et donc marquées en 404 pour ton site dans son index (les pages farfelues en 404 étant par nature non marquées d'un NOINDEX on ne peut pas forcément lui en vouloir, même si ça semble un peu idiot).
                Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

                Commentaire


                • #9
                  Re : Adresses bidon répertoriées comme 404 par Google ?

                  Oui, c'est ce qui me semble bizarre, que Google indexe ou tout au moins signale dans les Search tools des adresses venant d'on ne sait où.

                  Je viens de jeter un œil aux logs d'erreurs et je trouve pas mal de lignes de ce type :
                  [Mon Apr 03 02:20:24 2017] [error] [client 195.133.48.150] Request exceeded the limit of 10 internal redirects due to probable configuration error. Use 'LimitInternalRecursion' to increase the limit if necessary. Use 'LogLevel debug' to get a backtrace., referer: http://www.*********.ru/catalog/serv...8x_489103_001/
                  Est-ce que ça parle à quelqu'un ? Cela veut-il dire que le site en question se balade sur tout un tas d'autres avant d'arriver sur celui de ma cliente ?
                  Le site est protégé par aeSecure Pro et l'accès à l'administration est protégé par Admin Exile via mot de passe. Que pourrais-je faire de plus ?

                  Merci encore de votre aide et de vos conseils.
                  "Patience et longueur de temps font plus que force ni que rage..." (La Fontaine : Le Lion et le Rat) - "Il n'y a pas de problèmes; il n'y a que des solutions" (André Gide).
                  MoovJla et LazyDbBackup sur www.joomxtensions.com - FaQ sur www.fontanil.info - Site pro : www.robertg-conseil.fr et sites perso chez PlanetHoster + sites gérés chez PHPNET, 1and1 et OVH

                  Commentaire


                  • #10
                    Re : Adresses bidon répertoriées comme 404 par Google ?

                    Que pourrais-je faire de plus ?
                    A mon avis rien, mais Christophe (@Cavo789) est mieux placé que moi sur ce sujet pour t'en parler. Cette requête n'arrive pas à ton site parce que jeté par ton .htaccess en ce qui concerne les redirections (à moins qu'il ne s'agisse de redirections générées par le module de redirection interne de Joomla!).

                    Personnellement j'ai arrêté de trop me focaliser sur ce genre de messages envoyés par google (là ce n'est pas le cas, c'est bien le serveur Apache via ton .htaccess qui te l'envoie).

                    Maintenant si sur ce site tu n'as rien de spécial à attendre d'un visiteur renvoyé par un site .ru, ajoute une ligne d'exclusion pour le dit site dans la section 2.9 de aeSecure (élimination des referrers suspects) pour éviter la consommation de ressources (sans doute assez faible) des redirections en rebond

                    Cordialement
                    Il y a 10 sortes de gens. Ceux qui savent compter en binaire et ceux qui ne savent pas ...

                    Commentaire


                    • #11
                      Re : Adresses bidon répertoriées comme 404 par Google ?

                      salut
                      j'ai déjà remarqué que Google web dev invente des urls bidons et les inscrits comme 404
                      C'est étrange, perso après avoir passé des heures à chercher en vain, je m'en suis réduit à utiliser mon temps pour faire des choses plus constructives
                      CEd
                      Vive Joomla! http://www.joomlack.fr Tutoriels et extensions pour Joomla!. Livre création de template Joomla de plus de 200 pages.
                      http://www.template-creator.com Outil de création de templates
                      Module Maximenu CK - Megamenu, multicolonnes, chargement de module, description de lien, deroulement animé - Compatible Virtuemart, Hikashop

                      Commentaire


                      • #12
                        Re : Adresses bidon répertoriées comme 404 par Google ?

                        Personnellement, je laisserais en effet courir, mais comme je l'ai dit plus tôt, Google a répertorié des erreurs 503, probables témoins de surcharge du serveur par ces redirections venant de sites externes, ce qui fait que j'aimerais trouver une parade, bien que je doute que ça impacte les infos chez Google.

                        Par contre je ne vois toujours pas comment retrouver les adresses internes, dans des articles ou des produits de la boutique, qui sont actuellement en erreur 404, compte tenu du nombre de produits et articles.
                        "Patience et longueur de temps font plus que force ni que rage..." (La Fontaine : Le Lion et le Rat) - "Il n'y a pas de problèmes; il n'y a que des solutions" (André Gide).
                        MoovJla et LazyDbBackup sur www.joomxtensions.com - FaQ sur www.fontanil.info - Site pro : www.robertg-conseil.fr et sites perso chez PlanetHoster + sites gérés chez PHPNET, 1and1 et OVH

                        Commentaire

                        Annonce

                        Réduire
                        1 sur 2 < >

                        C'est [Réglé] et on n'en parle plus ?

                        A quoi ça sert ?
                        La mention [Réglé] permet aux visiteurs d'identifier rapidement les messages qui ont trouvé une solution.

                        Merci donc d'utiliser cette fonctionnalité afin de faciliter la navigation et la recherche d'informations de tous sur le forum.

                        Si vous deviez oublier de porter cette mention, nous nous permettrons de le faire à votre place... mais seulement une fois
                        Comment ajouter la mention [Réglé] à votre discussion ?
                        1 - Aller sur votre discussion et éditer votre premier message :


                        2 - Cliquer sur la liste déroulante Préfixe.

                        3 - Choisir le préfixe [Réglé].


                        4 - Et voilà… votre discussion est désormais identifiée comme réglée.

                        2 sur 2 < >

                        Assistance au forum - Outil de publication d'infos de votre site

                        Compatibilité: PHP 4.1,PHP4, 5, 6DEV MySQL 3.2 - 5.5 MySQLi from 4.1 ( @ >=PHP 4.4.9)

                        Support Version de Joomla! : | J!3.0 | J!2.5.xx | J!1.7.xx | J!1.6.xx | J1.5.xx | J!1.0.xx |

                        Version française (FR) D'autres versions sont disponibles depuis la version originale de FPA

                        UTILISER À VOS PROPRES RISQUES :
                        L'exactitude et l'exhaustivité de ce script ainsi que la documentation ne sont pas garanties et aucune responsabilité ne sera acceptée pour tout dommage, questions ou confusion provoquée par l'utilisation de ce script.

                        Problèmes connus :
                        FPA n'est actuellement pas compatible avec des sites Joomla qui ont eu leur fichier configuration.php déplacé en dehors du répertoire public_html.

                        Installation :

                        1. Téléchargez l'archive souhaitée : http://afuj.github.io/FPA/

                        Archive zip : https://github.com/AFUJ/FPA/zipball/master

                        2. Décompressez le fichier de package téléchargé sur votre propre ordinateur (à l'aide de WinZip ou d'un outil de décompression natif).

                        3. Lisez le fichier LISEZMOI inclus pour toutes les notes de versions spécifiques.

                        4. LIRE le fichier de documentation inclus pour obtenir des instructions d'utilisation détaillées.

                        5. Téléchargez le script fpa-fr.php à la racine de votre site Joomla!. C'est l'endroit que vous avez installé Joomla et ce n'est pas la racine principale de votre serveur. Voir les exemples ci-dessous.

                        6. Exécutez le script via votre navigateur en tapant: http:// www. votresite .com/ fpa-fr.php
                        et remplacer www. votresite .com par votre nom de domaine


                        Exemples:
                        Joomla! est installé dans votre répertoire web et vous avez installé la version française du fichier FPA:
                        Télécharger le script fpa-fr.php dans: /public_html/
                        Pour executer le script: http://www..com/fpa-fr.php

                        Joomla! est installé dans un sous-répertoire nommé "cms" et vous avez installé la version française du fichier FPA:
                        Télécharger le script fpa-fr.php dans: /public_html/cms/
                        Pour executer le script: http://www..com/cms/fpa-fr.php

                        En raison de la nature très sensible de l'information affichée par le script FPA, il doit être retiré immédiatement du serveur après son utilisation.

                        Pour supprimer le script de votre site, utilisez le lien de script de suppression fourni en haut de la page du script. Si le lien de suppression échoue pour supprimer le script, utilisez votre programme FTP pour le supprimer manuellement ou changer le nom une fois que le script a généré les données du site et le message publié sur le forum. Si le script est toujours présent sur le site, il peut être utilisé pour recueillir suffisamment d'informations pour pirater votre site. Le retrait du script empêche des étrangers de l'utiliser pour jeter un oeil à la façon dont votre site est structuré et de détecter les défauts qui peuvent être utilisé à vos dépends.
                        Voir plus
                        Voir moins

                        Partenaire de l'association

                        Réduire

                        Hébergeur Web PlanetHoster
                        Travaille ...
                        X