SEO / page non indexée canonisée

Réduire
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • [Problème] SEO / page non indexée canonisée

    Bonjour,

    J'utilise Screamingfrog pour vérifier la fiabilité SEO de mon site car je ne comprends pas pourquoi il n'est pas indexé sur google (depuis 1 mois de mise en ligne).
    J'ai mis le sitemap suivant dans la search console de Google : https://asf-academy.com/sitemap-xml
    J'ai demandé à ce que les urls des liens du menu soient réindexées, mais ce n'est toujours pas le cas.

    Screamingfrog me montre les pages "non-indexables" suivantes :
    Pouvez-vous m'aider ou simplement me donner des conseils ?

    Je vous remercie de votre aide toujours aussi précieuse !​

  • #2
    Bonjour,

    Quelques règles...

    - Définir des liens de menus spécifiques :
    Il y a des pages dans un site qui nécessitent un lien de menu.
    Généralement pour éviter de les avoir frontalement, on les ajoute dans un menu caché.
    Il s'agit de toute la notion d'inscription ou de connexion au site (inclus renouvellement de mot de passe)
    et le moteur de recherche. Sans ces liens de menu, vous obtenez des liens non réécrit malgré l'activation de la réécriture d'url.

    - Si une page comporte des liens vers des articles non définis (sans repère) par un lien de menu,
    ils seront assignés sur le même identifiant (ID) du lien de menu.

    - Je ne sais pas comment l'url canonique est activé sur votre site (extension ou natif) mais je conseille d'éviter celui dans Joomla qui n'aide vraiment pas.

    - les robots d'indexation partent de la page d'accueil et suivent les liens sauf ceux qui sont en nofollow, et bloque pratiquement tous les liens injectés en javascript à quelques exceptions près.
    Ils suivent généralement les directives de robots.txt mais ce n'est pas totalement bloquant.

    Le plan de site ne sert à rien si les robots ne peuvent pas faire leur travail car le plan de site n'est qu'une indication que l'on envoi au moteur de recherche notamment sur le délai de rafraichissement des informations mais ce sont biens les robots d'indexation qui effectuent le travail. Des moteurs autre que Google chercheront sitemap.xml à la racine du site ( perso, j'effectue une redirection de l'url du composant vers sitemap.xml, ainsi je peux changer d'extension si j'ai envie). On peut également préciser le sitemap dans le fichier robots.txt ... Bref, pour l'indexation, il ne faut pas penser plan de site mais bien les liens

    Pour osmap, il ne faut pas confondre le plan de site html et celui en xml.
    Celui en xml est celui qui est soumis au moteur de recherche google ou lien sitemap.xml à la racine
    Celui en html est pour les visiteurs et les robots d'indexation : l'url https://asf-academy.com/component/osmap/?view=html&id=1
    correspond au premier plan de site html (id 1) et visible car le lien de menu n'est pas créé tout simplement.

    ...
    J'ai créé depuis quelques années des checklists, un peu longues à détailler sur le forum mais je pourrais donner librement accès si vous souhaitez avoir votre feuille de route pour le référencement, pour la sécurité, performance, etc. C'est juste que je suis en train d'actualiser pour Joomla 5 (en incluant également les nouvelles règles et tendance) et cela prend du temps.


    Dernière édition par daneel à 13/06/2024, 15h32
    altacrea aime ceci.
    Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

    Commentaire


    • #3
      Envoyé par daneel Voir le message

      ...
      J'ai créé depuis quelques années des checklists, un peu longues à détailler sur le forum mais je pourrais donner librement accès si vous souhaitez avoir votre feuille de route pour le référencement, pour la sécurité, performance, etc. C'est juste que je suis en train d'actualiser pour Joomla 5 (en incluant également les nouvelles règles et tendance) et cela prend du temps.
      OUIIIIIIIIIIIIIIIIIIIIIIII, Je souhaite voir cette feuille de route s'il vous plaît!!!!!!!

      Commentaire


      • #4
        Merci daneel​ pour ce retour,

        OK pour les points suivants, je pense bien comprendre et gérer
        Concernant l'activation de l'url canonique, bingo !
        j'avais oublié avoir installé route 66
        j'ai tout supprimé et refait un crawl sur Screamingfrog, toutes mes url ont maintenant un statut "OK" et sont marquées "indexables"
        va vraiment falloir que je fasse une formation SEO !

        Dois-je demander une réindexation de chaque URL du plan de site dans la search console ?

        ...
        J'imagine qu'on serait très nombreux et heureux si on pouvait profiter de ta capitalisation pour optimiser nos sites
        Merci pour la qualité de tes réponses !




        Commentaire


        • #5
          Hello daneel

          Je viens de demander une réindexation de l'url asf-academy.com via la search console

          Je tente de faire la redirection du sitemap géré par OSMAP vers asf-academy.com/sitemap.xml mais j'y arrive pas
          dans le .htaccess j'ai testé plein de truc (juste avant ## End - Custom redirects)

          RewriteCond %{REQUEST_URI} ^/sitemap.xml
          RewriteRule .* https://www.asf-academy.com/componen...d=1&format=xml
          ## End - Custom redirects
          RewriteCond %{REQUEST_URI} ^/sitemap.xml
          RewriteRule .* asf-academy.com/component/osmap/?view=xml&id=1&format=xml
          ## End - Custom redirects​
          RewriteCond %{REQUEST_URI} ^/sitemap.xml
          RewriteRule .* /component/osmap/?view=xml&id=1&format=xml
          ## End - Custom redirects​
          RewriteCond %{REQUEST_URI} ^/sitemap.xml
          RewriteRule .* index.php?option=com_osmap&view=xml&tmpl=component &id=1&format=xml
          ## End - Custom redirects​​
          Je stresse, je comprends pas pourquoi aucune page n'est indexée dans Google
          site:asf-academy.com

          Pourriez-vous m'aiguiller ?
          Merci !

          Commentaire


          • #6
            Effectivement, ce n'est même pas en cache de google. Au lieu de taper site:, utilise cache:
            exemple avec joomla.fr : cache:https://joomla.fr

            Cela te donne la date du passage de googlebot et le contenu qu'il a indexé au moment de son passage.


            Alternativement, si j'essaye de le capturer via "wayback machine", le résultat est catastrophique.
            Wayback machine permet de retrouver les sites et de remonter dans le temps pour voir leur évolution ou récuperer un contenu oublié ou perdu.
            Malheureusement ce qui fait bloquer le robot de google donne des problèmes également à celui de wayback machine.

            https://web.archive.org/web/20240530...f-academy.com/

            La question, c'est de savoir ce qui bloque Googlebot ? le robot d'indexation de Google ? et les autres
            Quel contenu s'affiche à leur passage ?

            1. Tu peux indiquer les différences dans ton fichier .htaccess en comparaison à celui par défaut de Joomla ?

            2. Faut se méfier des scripts, en particulier ceux qui insèrent un contenu dynamiquement. Je ne suis pas contre les effets (au contraire ! ) mais j'évite tout ce qui pourrait bloquer l'indexation. Il y a des solutions qui sont bien codés, d'autres qui misent sur l'effet sans se soucier du référencement. En théorie, le contenu principal devrait être disponible sans le chargement du javascript tout simplement.

            C'est également le cas du chargement en ajax ( ajax étant du javascript)... Quand je regarde le code de la page blog, je vois de l'ajax pour éviter de tout charger mais à mon avis, essaye de desactiver les effets.
            Prioritairement, le contenu du site doit pouvoir être reconnu par les robots, le reste c'est du bonus...

            Tu peux aussi avoir activé un blocage ailleurs pour eviter d'être indexé pendant le développement du site ? Je pose la question à tout hasard car cela arrive même à des pro dans leur précipitation et avec la pression pour tenir les délais.

            3. Que dit le rapport de Google Search Console sur les pages indexées ?
            Découvrez les pages que Google peut trouver et indexer sur votre site, ainsi que les problèmes d'indexation rencontrés. Ouvrir le rapport sur l
            Dernière édition par daneel à 16/06/2024, 07h46
            Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

            Commentaire


            • #7
              Merci pour ton intérêt daneel​ !

              Je comprends pas d'où vient mon pb. d'indexation, j'en suis à mon 10ème site Joomla avec le framework Yootheme, j'ai jamais eu ce problème.
              La seule particularité (je pense), c'est que là j'ai un client qui a acheté son NDD chez gandi.net , moi j'héberge le site chez O2Switch


              ok, je connaissais pas cache:******* merci. On peut voir que le NDD a dernièrement été parcouru le 29 mai 2024 04:00:52
              > le site est en ligne depuis le 30 mai donc depuis que les records pointent sur O2Switch, plus de crawl, d'indexation

              sur gandi.net, enregistrement DNS j'ai
              • mis un record type A vers l'IP d'O2Switch
              • + un CNAME vers asf-academy.com
              sur O2Switch
              • ajout d'un Let's encrypt sur le NDD

              Dans Joomla :
              • Metadata : Robots = index, follow (rien fait, c'est par défaut)
              • SEO : Search Engine Friendly URLs & Use URL rewriting = Yes et j'ai renommé htaccess.txt to .htaccess
              • server : Force HTTPS = Entire Site​

              Mon htaccess > visible ici
              j'ai ajouté ton conseil pour rediriger http ver https & www vers non-www (ça fonctionne parfaitement)
              et je viens de mettre une redirection sitemap.xml vers l'xml de d'OSMAP​ soit :
              # Redirection du xml du composant OSMAP vers sitemap.xml
              rewritecond %{REQUEST_URI} ^/sitemap.xml
              rewriterule .* index.php?option=com_osmap&view=xml&tmpl=component &id=1&format=xml

              # Redirection de HTTP vers HTTPS
              RewriteCond %{HTTPS} off
              RewriteRule ^(.*)$ https://%{HTTP_HOST}%{REQUEST_URI} [L,R=301]

              # Redirection de www vers non-www
              RewriteCond %{HTTP_HOST} ^www\.(.*)$ [NC]
              RewriteRule ^(.*)$ https://%1%{REQUEST_URI} [L,R=301]

              # Redirection sitemap.xml vers le lien de menu Joomla "sitemap" qui affiche xml du composant osmap
              RedirectPermanent /sitemap.xml https://asf-academy.com/sitemap


              Le robots.txt est par défaut, j'ai juste ajouté le sitemap > https://asf-academy.com/robots.txt

              Au niveau des scripts
              • sur la home et blog, j'avais des éléments yootheme désactivés, je n'ai pas la compétence pour savoir si c'est du ajax qui bloque le contenu, je les ai maintenant supprimé, tu peux me dire si tu vois encore du ajax qui bloque du contenu ?
              • sur la home j'ai ajouté la semaine dernière les avis google en ajoutant un petit script issu https://elfsight.com/google-play-reviews-widget/ mais je pense pas que c'est ça le pb. car j'avais déjà pas d'indexation avant
              <script src="https://static.elfsight.com/platform/platform.js" data-use-service-core defer></script>
              <div class="elfsight-app-10ce91ee-a54e-483a-aa87-255b369e56e3" data-elfsight-app-lazy></div>
              Je ne vois pas comment j'aurai pu mettre en place un blocage d'indexation, sans vouloir autant optimiser mes autres sites, eux sont bien indexés

              Dans Google Search Console, et bien c'est la cata (comme tu t'en doutes)
              Pages :
              • 1 page indexée URL http://asf-academy.com/ Dernière exploration : 29 mai 2024
              • 1 Page non indexée URL http://www.asf-academy.com/ Page en double sans URL canonique sélectionnée par l'utilisateur (il y 3 jour j'ai ajouté ton conseil : www vers non-www)
                • État de la validation : commencé Début : 02/06/2024 (car j'avais le 2/06 déjà demandé de la revalider mais ça reste bloqué au statut "commencé")
              • Sitemaps envoyés
                Sitemap Type URL envoyées Dernière lecture État Pages découvertes Vidéos découvertes
                https://asf-academy.com/sitemap-xml Sitemap 12 juin 2024 12 juin 2024 Opération effectuée 39 0
              • Paramètres / robots.txt 1 Problème http://www.asf-academy.com/robots.txt 07/06/2024 10:16 error_outline Non récupéré – Sans objet
                • ce 16/06 je viens de demander une nouvelle exploration (car depuis la MAJ du htaccess avec ton conseil) le robots.txt répond

              j'espère m'en sortir un jour ! Merci pour ton aide !
              Dernière édition par tipworld à 17/06/2024, 20h56

              Commentaire


              • #8
                Je viens de découvrir que le site est indexé sur bing, yahoo mais pas Google
                et la page qui resort en 1er est le lien de menu "à propos", pas la page d'accueil
                Cliquez sur l'image pour l'afficher en taille normale  Nom : Sans titre.jpg  Affichages : 0  Taille : 135,0 Ko  ID : 2062874

                Alors ça voudrait dire que j'ai un soucis sur ma page d'accueil ?
                si je résoud ce problème, vais-je avoir le googlebot ?
                Il faut que je comprenne le problème de ma page d'accueil, mais comment savoir quoi ?


                La Google Search console m'indique ça quand même, et cela tous les jours
                je comprends pas c'est quoi le problème, je suis bien en https
                Cliquez sur l'image pour l'afficher en taille normale

Nom : 2024_06_17_22_49_15_HTTPS.jpg 
Affichages : 29 
Taille : 118,9 Ko 
ID : 2062875
                Dernière édition par tipworld à 17/06/2024, 21h51

                Commentaire


                • #9
                  Effectivement, il n'est pas encore repassé sur le site depuis le 29 mai avec l'ancien contenu de parking du ndd chez gandi.
                  C'est à dire la page d'indication que le ndd est pris mais aucun site au 29 mai.

                  Le délai est un peu long mais suivant la configuration initiale, Google peut décider de ne pas revenir avant plusieurs semaines.
                  Après tout, il n'y a pas eu changement de serveur dns mais juste l'ip dans la zone dns. (le fait que tu indique de nouvelles pages dans le plan de site xml est un indicateur optionnel pour Google ).

                  Perso, j'aurai déjà changé de serveur pour ceux de l'hébergeur préconise pour x raisons ( dnssec, autodiscover ssl... ) mais c'est ma façon de raisonner.
                  Il y a aussi le fait que je laisse le client gérer son cpanel et c'est beaucoup plus simple d'avoir la gestion du nom de domaine au même endroit.

                  Après j'aurai évité tout blocage dans le contenu. Je trouve par exemple mal contruit le code du megamenu car les balises "nav" servant à identifier sont utilisés
                  par le premier niveau mais pas par le reste qui est défini en de simple div, caché en css et défini au survol. Je t'ai déjà donné mon avis sur le reste.
                  Je m'en tiens à tes affirmations donc le problème n'est pas en javascript donc mais plutôt dans le retard "normal" de google
                  et le fait qu'il y a eu très peu de changement dans les dns.





                  Dernière édition par daneel à 18/06/2024, 00h02
                  Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

                  Commentaire

                  Annonce

                  Réduire
                  Aucune annonce pour le moment.

                  Partenaire de l'association

                  Réduire

                  Hébergeur Web PlanetHoster
                  Travaille ...
                  X