Tutoriel sur le fichier robots.txt

Réduire
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • #16
    Bonjour, j'ai également mis en ligne une synthèse sur l'indexation avec les robots.

    J'ai rajouté le lien présenté plus haut dans les liens complémentaires.

    J'aimerais un retour sur l'utilisation de ce service : http://browsershots.org/
    Dernière édition par cavo789 à 16/08/2018, 14h35

    Commentaire


    • #17
      Bonjour ZerooCool,

      Je ne pense pas que ce soit un problème de browsershots qui fonctionne très bien sur d'autres sites.
      Je l'ai utilisé à un moment avant de passer pour une solution en local.

      Pour moi, il y a deux problèmes dans ton fichier robots.txt

      1. Les allow ne sont pas nécessaires (car activé par défaut). Officiellement, ce n'est pas indiqué de le faire bien que les crawlers prennent en compte.
      Certains l'utilisent pour autoriser un fichier ou plusieurs fichiers spécifiques d'un repertoire placé en disallow

      Si tu peux m'expliquer l'origine de la ligne suivante car je ne vois pas très bien son intérêt :
      Code:
       Allow: /*?*

      2. De plus, tu as des directives "disallow" sur les modules & plugins alors que tu as des feuilles de style dans ces repertoires qui sont donc bloquées :
      exemple le module je social :.../modules/mod_je_socialprofiles/css/style.css est en disallow
      idem pour le plugin dropeditor...

      Une solution comme browsershot ne chargera pas une page qui est à moitié bloqué par les directives.

      Le principe, c'est de vérifier les urls de fichier à télécharger dans le code source de la page d'accueil de ton site (bouton droit / code source )
      puis rechercher clique sur dans le menu rechercher du navigateur chaque fichier ".css" et fichier ".js".

      A titre personnel, j'évite les feuilles de style indépendantes et je met tout cela en cache (css & js avec fusion et minification)...à la méthode de jchtoptimize.
      Je précise également que je cache sur mes sites l'accès à "administrator" sous un autre nom, la balise meta generator indiquant joomla etant également modifié.

      En résumé, tu as besoin d'autoriser (allow) uniquement sur les spécifications dans des dossiers interdits (disallow) en lecture mais c'est à éviter pour éviter des indications supplémentaires aux hackers. La solution idéale étant d'une part de ne pas avoir de directives allow et d'autres part de fichiers css et js dans les repertoires interdits par robots.txt.






      Dernière édition par daneel à 14/12/2017, 19h09
      Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

      Commentaire


      • #18
        Bonjour et merci pour cette analyse, et, d'avoir pris le temps de rechercher dans le code, quelques exemples propres à mon site.

        Concernant la ligne : Allow: /*?*
        je me réfère à la description suivante, pattern matching / correspondance de modèle :
        Bloquer l'accès à toutes les URL qui incluent un point d'interrogation, utiliser simplement le point d'interrogation. Pas besoin de l'échapper ou de le précéder d'une barre oblique inverse.

        User-agent: *
        Disallow: /*?*
        De la même façon, avec un Allow, j'autorise les url contenant un ? dans l'adresse, par exemple, pour les URL propres à Mediawiki.


        Ta synthèse me convient, c'est bien ce que je comprend de mes lectures :
        En résumé, tu as besoin d'autoriser (allow) uniquement sur les spécifications dans des dossiers interdits (disallow) en lecture mais c'est à éviter pour éviter des indications supplémentaires aux hackers. La solution idéale étant d'une part de ne pas avoir de directives allow et d'autres part de fichiers css et js dans les repertoires interdits par robots.txt.
        Pourtant, malgré le changement de robots.txt hier encore, dans la soirée, la situation avec browsershots ne change pas.
        Je vais tenter de modifier / supprimer encore quelques règles.

        J'ai aussi tenté de placer un robots.txt sans aucune restriction. Uniquement avec un Allow: / ( puis, avec un Allow: /* )
        Le même problème est présent, Browsershots ne peut lire le fichier robots.txt
        Dernière édition par cavo789 à 16/08/2018, 14h32

        Commentaire


        • #19
          Je t'en prie, c'est vrai qu'on s'éloigne un peu du sujet mais pour chercher des pistes...

          1. Tu peux tester en supprimant
          Allow: /*?*

          2. leur adresse ip est peut être bloquée par une règle dans le fichier htaccess ... par exemple aesecure qui utilise le htaccess peut bloquer des services comme browsershot du fait de leur actions (se renseigner auprès de l'auteur ^ ^ )... ou par cloudflare vu le nombre de requête ( tu peux ajouter leur ip en whitelist dans l'interface de cloudflare... ).
          Dernière édition par daneel à 15/12/2017, 12h49
          ZerooCool aime ceci.
          Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

          Commentaire


          • #20
            Merci de ton retour,
            Oui, j'ai déjà testé sans le Allow: /*?* , j'ai testé comme dit, avec un fichier robots.txt presque vide, ça ne change pas.

            Je vais voir dans ce sens, comme tu le proposes : .htaccess puis cloudflare.

            J'ai vérifié entre temps sur Google Webmaster tools, la syntaxe de mon fichier robots.txt et le retour est le suivant :
            0 erreurs0 avertissements

            J'en profite pour confirmer que je ne reçois pas les réponses par mail, ni dans les spams. Je ne vois pas l'option pour être alerté des réponses par mail.
            Dernière édition par ZerooCool à 15/12/2017, 13h21

            Commentaire


            • #21
              Pour info,

              Ce n'etait pas le fichier robots.txt...

              J'ai testé de mon coté d'autres sites utilisant cloudflare (+ son certificat ssl)... browsershot indique la même erreur, donc plus la peine de chercher.
              Je te conseille d'indiquer le problème sur le support de ce service (forum ou autre).

              Yann
              Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

              Commentaire


              • #22
                Effectivement Yann, on a pu en reparler entre temps sur Facebook, et, je te remercie d'avoir regardé de ton côté, encore une fois.
                Je vais le signaler à Cloudflare, pour voir si ils peuvent apporter une réponse plus précise.

                Résolu, ce n'était donc pas mon fichier robots.txt qui était mal conçu, ça me rassure vu la longue synthèse que j'ai transcrite.
                Google me le confirmait lors du test de ce fichier.

                Cette liste de liens complètera l'échange sur la thématique de Browsershots. J'ai fais une demande de compte gratuit à Browserstack.

                Tester le rendu graphique de votre site en ligne
                Gratuitement
                Avec Browsershots. Sans inscription. http://www.browsershots.org (Cloudflare empêche la lecture du fichier robots.txt avec Browsershots.)
                Avec netrenderer. Sans inscription. Permet de tester un rendu sous Internet Explorer : http://netrenderer.com

                Pour les projets opensource
                Avec Browserstack. Gratuit pour les projets opensource, faire une demande : https://www.browserstack.com

                D'autres services payant et professionnels
                Avec Browsera. Avec inscription à l'essai pour tester 25 pages. https://www.browsera.com
                Avec Saucelabs. Avec inscription à l'essai. https://saucelabs.com
                Avec Crossbrowsertesting. Avec inscription à l'essai. https://crossbrowsertesting.com
                Avec Testingbot. Avec inscription à l'essai. https://testingbot.com Avec Browseemall.
                Avec inscription à l'essai. https://www.browseemall.com

                Dernière édition par cavo789 à 16/08/2018, 14h32

                Commentaire

                Annonce

                Réduire
                Aucune annonce pour le moment.

                Partenaire de l'association

                Réduire

                Hébergeur Web PlanetHoster
                Travaille ...
                X