Une question au sujet du crawl et de l'indexation d'URL avec Google

Réduire
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • [RÉGLÉ] Une question au sujet du crawl et de l'indexation d'URL avec Google

    Bonjour à tous,

    J'ai une question technique à vous poser car je ne trouve pas la réponse. Elle est importante pour moi.

    A titre d'exemple, cette semaine, j'ai publié 3 nouveaux articles sur mon site web.
    En voici deux :

    https://www.guillenphoto.com/fr/les-...d-analyse.html

    https://www.guillenphoto.com/en/why-...rt-prints.html

    Le jour suivant, j'ai vérifié dans Google Search Console. Elles ont été crawlées et indexées sans que Google les ait trouvées dans un sitemap.

    Voici les screenshots des URLs dans Google :

    Cliquez sur l'image pour l'afficher en taille normale  Nom : Screenshot 2022-03-12 082544.png  Affichages : 13  Taille : 150,8 Ko  ID : 2037944

    Cliquez sur l'image pour l'afficher en taille normale  Nom : Screenshot 2022-03-12 082642.png  Affichages : 12  Taille : 160,7 Ko  ID : 2037945

    Ma question est la suivante. Comment Google peut-il trouver des URLs à indexer sans passer par un sitemap?

    J'espère que quelqu'un pourra me répondre?

    Sincèrement,
    A. Guillen


    Dernière édition par guillenphoto à 13/03/2022, 01h28

  • #2
    Le robot suit les liens qu'il trouve dans tes pages déjà connues
    Dans celle-ci par exemple
    N'oubliez pas de passer vos post en "réglé" c'est très utile à celui qui cherche, ...et qui se perd http://forum.joomla.fr/announcement.php?f=133 mais trouvera grâce à vous

    Commentaire


    • #3
      Bonjour,

      Le plan de site n'est pas forcément suivi et même optionnel.

      Ce sont les robots d'indexations, les "crawlers" qui se chargent de suivre les liens et de les indexer depuis ceux de la page d'accueil.
      le sitemap est surtout là pour guider mais ce n'est en aucun cas, une obligation.

      Définition du "crawler" :
      https://www.journaldunet.fr/web-tech...on-et-acteurs/

      Le robot de google s'identifie dans les logs sous le nom de GoogleBot et va scanner chaque page, chaque liens, chaque segment des urls.
      D'où l'importance de la hierachisation des titres, de la présence du fil d'ariane, des zones identifiés en html5 comme nav, footer, section...

      Quand vos liens sont générés par du code javascript, vous aurez plus de difficultés à indexer les page internes liées car bien qu'il execute en partie le code,
      il peut très bien ne pas prendre en compte ce qui peut poser problème pour des menus gérés en js.
      Il faut toujours faire attention au seo notamment pour les menus et diaporamas.

      Attention également avec l'utilisation d'un noindex, nofollow mal gérée qui aura des répercussions plus importantes et souvent négatives ou d'un fichier robots.txt inutilement complexe.

      Le passage du robot et le nombre de page indexés dépendent de la pertinence du contenu, du budget de crawl et des mises à jour du contenu du site.
      Toutefois, le plan de site aide tout autant que le fait de suivre les erreurs et les signalements de Google Search Console.

      Par exemple, si votre plan de site xml est dynamique et synchronisé dans search console avec une extension comme osmap,
      Google tient compte de l'actualisation quand celui-ci est mis à jour par la publication d'un nouvel article.


      Dernière édition par daneel à 12/03/2022, 19h23
      Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

      Commentaire


      • #4
        Bonjour Abmag, bonjour Daneel,

        je vous remercie pour vos explications très claires.

        Je comprends mieux comment les robots fonctionnent maintenant. Depuis quelques semaines, j'étais vraiment surpris car à chaque fois que j'ajoutais une page dans mon site, elles était indexée le lendemain (parfois moins de 24 heures après).

        J'utilise JSiteMap pour générer les différents sitemaps. Je ne pense pas que cette extension soit synchronisée avec Search Console. Je regarde les mots clés et les clés mais ce sont des rapports. Rien en temps réel.

        Finalement, ce sont les robots de Google qui parcourt mon site. Je suis surpris que ce soit aussi rapide.

        Merci une nouvelle fois pour communiquer votre savoir.

        Sincèrement,
        A. Guillen

        Commentaire


        • #5
          Bonjour A. Guillen, Il est tout à fait possible que Google découvre les nouvelles URLs de votre site sans passer par un sitemap. Google utilise plusieurs méthodes pour découvrir du contenu en ligne, et le crawling des liens en est une importante. Si d'autres sites ont des liens pointant vers vos nouvelles pages, Google peut les suivre et les indexer. De plus, si votre site a une structure bien liée et que les nouvelles pages sont accessibles à partir de pages déjà indexées, Google peut les trouver lors de ses explorations. Cela dit, l'utilisation d'un sitemap reste une bonne pratique pour informer Google de l'ensemble de votre contenu de manière organisée, ce qui peut avoir un Smart Impact sur votre référencement. Assurez-vous que votre sitemap est à jour et soumis à Google Search Console pour une meilleure indexation.
          Dernière édition par mhrez750 à 31/01/2024, 16h24

          Commentaire

          Annonce

          Réduire
          Aucune annonce pour le moment.

          Partenaire de l'association

          Réduire

          Hébergeur Web PlanetHoster
          Travaille ...
          X