fichier robots.txt

Réduire
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • fichier robots.txt

    Bonjour,

    le référencement de mon site nécessite des modifs du fichier robots.txt, semble t-il (selon le webmaster qui gère le référencement), et j'aimerais savoir quoi ajouter pour que cela fonctionne correctement et ne pas compromettre la sécurité du site.

    Voilà le contenu actuel :

    User-agent: *
    Disallow: /administrator/
    Disallow: /bin/
    Disallow: /cache/
    Disallow: /cli/
    Disallow: /components/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /layouts/
    Disallow: /libraries/
    Disallow: /logs/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /tmp/​


    Que dois je modifier svp ? Merci

  • #2
    en fait je me suis trompé, il n'y avait pas de fichier robots.txt à la racine de mon site. Je vais l'inclure à présent...

    Commentaire


    • #3
      Bonjour

      On peut aussi renseigner le sitemap dans le fichier.

      Va voir ce sujet https://forum.joomla.fr/forum/joomla...ap-pour-google ainsi que les multiples réponses de @daneel (dont l'image du post 6)
      julianito aime ceci.
      Christophe (cavo789)
      Mon blog, on y parle Docker, PHP, WSL, Markdown et plein d'autres choses : https://www.avonture.be
      Logiciel gratuit de scan antivirus : https://github.com/cavo789/aesecure_quickscan (plus de 45.000 virus détectés, 700.000 fichiers sur liste blanche)​

      Commentaire


      • #4
        Bonjour,

        C'est surtout que le contenu du fichier robots.txt par défaut est différent de ce que tu présente.
        Pour faire simple, l'absence de ce fichier ne remets pas en cause ton référencement, c'est juste qu'il faut indiquer aux robots d'éviter d'indexer des repertoires qu'il n'ont pas besoin de voir.

        C'est un peu comme dire vous pouvez venir indexer mon site sauf pour les éléments suivants.
        Avec le user-agent, on peut distinguer les robots comme googlebot mais par défaut, on indique pour tous ( * signifiant "tous"). Le fichier comporte les lignes suivantes en disallow :

        Code:
        User-agent: *
        Disallow: /administrator/
        Disallow: /api/
        Disallow: /bin/
        Disallow: /cache/
        Disallow: /cli/
        Disallow: /components/
        Disallow: /includes/
        Disallow: /installation/
        Disallow: /language/
        Disallow: /layouts/
        Disallow: /libraries/
        Disallow: /logs/
        Disallow: /modules/
        Disallow: /plugins/
        Disallow: /tmp/​
        Donc si dans le site (utiliser le bouton droit dans le navigateur > code source de la page), on a des appels (des liens) vers des fichiers dans le repertoire modules ou plugins, cela veut dire que l'extension tierce est mal codé car les ressources (icones, js, css...) sont désormais sous joomla 4 dans le repertoire "media". A ne pas confondre, le contenu des articles utilise les images et autres dans le repertoire images...

        Les repertoires Images et Media n'étant pas présent dans le fichier robots.txt , le contenu de ces repertoires présent dans les pages du site sera donc automatiquement pris en compte par les robots (pas besoin de préciser "allow" ). C'est valable également pour le repertoire templates. ... [ donc ne pas mettre media, image et templates en disallow dans le fichier htaccess ].

        Pour plus d'informations sur la norme robots.txt, voir : http://www.robotstxt.org/orig.html

        Pour la vérification de la syntaxe, voir : https://support.google.com/webmasters/answer/6062598?hl=fr

        Le conseil référencement : indiquer le lien vers votre plan de site xml dans robots.txt

        Ce n'est pas forcément pour Google qui représente la majorité des recherches auquel on peut soumettre via search console mais aussi pour les autres moteurs de recherche, pbien souvent on ne peut gérer et il n'y a pas de panneau de gestion (comme l'excellent duckduckgo ).

        Exemple : Osmap est une extension tierce pouvant créer le sitemap, l'url vers le plan de site est assez complexe. Aussi, vous indiquerez le chemin complet ou vous pouvez également créer une redirection (via le htaccess) à la racine que l'on nommera sitemap.xml ainsi on pourra préciser cela dans robots.txt


        N'oubliez pas de vérifier que l'url vers votre plan de site fonctionne avant de l'indiquer ou de soumettre à Google via search console.

        Cela se traduit par

        dans le htaccess :

        Code:
        RewriteCond %{REQUEST_URI} ^/sitemap.xml
        RewriteRule .* http://www.nomdevotresite.fr/index.php?option=com_osmap&view=xml&tmpl=component &id=3


        et voici ce que l'on pourrait retrouver en fin de fichier robots.txt :

        Dernière édition par daneel à 07/04/2023, 17h17
        ManuelVoileux, julianito et woluweb aiment ceci.
        Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

        Commentaire

        Annonce

        Réduire
        Aucune annonce pour le moment.

        Partenaire de l'association

        Réduire

        Hébergeur Web PlanetHoster
        Travaille ...
        X