Accès de Googlebot aux fichiers CSS et JS impossible sur le site

Réduire
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • PieceOfCake
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Je serais assez d'accord avec @lomart à un (très) léger distingo près :

    - un moteur de recherche indexe un site à partir des liens qu'il trouve en s'aidant du sitemap qui lui est fourni
    le sitemap est là (lorsqu'il est là) pour faciliter l'indexation du site, en aucun cas une marque exclusive de ce qui est et doit être indexé. Pour cela il suffit de demander à Google d'indexer la page d'accueil (avec ses menus et ses liens internes) pour qu'à force d'à force tout le site soit indexé.

    ce n'est pas le rôle de noindex d'empêcher l'indexation de certaines pages
    Ben ... si mais unitairement pas avec des règles générales quoi que ça marche très bien comme ça aussi même si à mon sens ce n'était pas le but visé à l'origine

    Laisser un commentaire:


  • lomart
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Après quelques jours d'absence, je reviens dans la machine à posts
    @lomart :
    As-tu fait des tests de compatibilité Google mobile avec cette méthode des .htaccess ? Si oui, avec quels résultats sur la page de test qui semble servir de référence (= https://www.google.com/webmasters/tools/mobile-friendly) ?
    Pour moi, ce n'est pas le sujet (voir plus bas dans ma réponse)

    @lomart :
    Ce que je me demande surtout, c'est si Google respecte bien les directives des .htaccess.
    Sauf erreur de ma part, Google est obligatoirement obligé de se plier aux directives d'un htaccess qui ne suggère pas mais refuse de donner le contenu.

    Envoyé par PhilJ à FlodAriege
    Par ailleurs, le test sur la page devis.html ne fait que confirmer ce que je dis depuis le début : il faut commencer par repérer les types de pages du site. Si on ne commence pas par là, on opère à l'aveuglette et on s'expose à perdre beaucoup de temps. Ainsi, du fait du formulaire de contact, la page devis.html est manifestement une page à traiter à part. Il suffit d'ailleurs de regarder son code source pour s'en convaincre : elle fait appel à des ressources qui ne sont pas mobilisées sur les autres pages (et à mon avis elle n'est pas compatible mobile au sens du test Google car plusieurs champs de saisie sont trop larges : 341 px, alors que la largeur disponible est tout au plus de 300 px).
    1 - ne faudrait-il pas commencer par les rendre mobile-friendly ?
    2 - ce n'est pas le rôle de noindex d'empêcher l'indexation de certaines pages ?
    3 - une page contact ou devis ne devrait jamais être indexée. Quel bel accueil pour un futur client : signez là !

    Pour rendre à Cesar ce qui appartient à Cesar, je pensais que :
    - un moteur de recherche indexe un site à partir des liens qu'il trouve en s'aidant du sitemap qui lui est fourni
    - le robots.txt a pour rôle de dire aux moteurs de recherche que s'il trouve des choses qui le tentent sur notre serveur, il n'a pas le droit de regarder
    - le .htaccess est là pour la gestion du serveur (redirection, interdiction d'accès, ...)
    - les noindex, nofollow permettent d'indiquer qu'un lien -bien tentant- n'est pas à indexer, car la page n'a pas d'intérêt ou nous ferait perdre du jus

    C'est en partant de ces principes que je suis pour un robots.txt qui conseille de ne pas indexer les fichiers indexables (images, pdf, documents texte et tableur) que l'on ne veut pas voir ressortir par une requête filetype.
    Si on veut vraiment les protéger de Google et autres petits malins, le htaccess est la solution. La solution ultime étant de ne pas les mettre sur Internet, comme le disait Eric Schmidt, l'ancien PDG de Google.
    Dernière édition par lomart à 08/08/2015, 09h23 Raison: Ajout de points d'interrogation pour préciser ma pensée

    Laisser un commentaire:


  • PhilJ
    a répondu
    [...] c'est quoi ces fichiers "momentanément inaccessibles" ??

    J'ai refait le test sur la page d'accueil, et de 2 ressources bloquées, je suis revenue à une dizaines de blocages, dont la plupart "momentanément inaccessibles".

    Ma foi, je referai le test demain, il y a peut-être un bug quelque part.
    Ce test en ligne (https://www.google.com/webmasters/tools/mobile-friendly) est susceptible de deux types d'échecs : (1) des ressources nécessaires à une estimation juste de la compatibilité avec les mobiles sont bloquées, typiquement par le fichier robots.txt, et (2) peut-être parce que trop sollicité, le script permettant le test ne parvient pas à évaluer cette compatibilité dans des délais raisonnables.

    Lorsque les deux types d'échecs sont en cause simultanément, on ne sait plus très bien ce qui est dû au premier ordre et ce qui est dû au second ordre... et peut-être que le script ne le sait plus très bien lui-même :-\

    _____________________

    A mon avis, tu peux retirer les lignes suivantes de ton robots.txt :
    Disallow: /images/headers/
    Disallow: /images/phocagallery/
    Disallow: /media/
    Disallow: /templates/

    à moins qu'il y ait quelque secret à préserver dans ces dossiers.

    Par ailleurs, le test sur la page devis.html ne fait que confirmer ce que je dis depuis le début : il faut commencer par repérer les types de pages du site. Si on ne commence pas par là, on opère à l'aveuglette et on s'expose à perdre beaucoup de temps. Ainsi, du fait du formulaire de contact, la page devis.html est manifestement une page à traiter à part. Il suffit d'ailleurs de regarder son code source pour s'en convaincre : elle fait appel à des ressources qui ne sont pas mobilisées sur les autres pages (et à mon avis elle n'est pas compatible mobile au sens du test Google car plusieurs champs de saisie sont trop larges : 341 px, alors que la largeur disponible est tout au plus de 300 px).

    Laisser un commentaire:


  • FlodAriege
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    On met 1 € dans la machine et on a 4 pages de posts

    Blague à part : je viens de mettre en place la solution dont PieceOfCake fait mention.
    Super, d'un seul coup ma page d'accueil est devenue visible de Googlebot pratiquement à l'identique d'un internaute.

    Sur ma page d'accueil, génial, il ne restait plus que 2 ressources non accessibles (addthis et gstatic)

    Mais alors, très bizarrement, sur les autres pages du site que j'ai testées, je suis très surprise de voir que des fichiers css, js, et même png/gif/JPG sont bloqués !

    Par exemple sur ma page de demande de devis (www rouchenergies fr / devis-gratuit.html ), j'obtiens les ressources suivantes bloquées :


    /li​bra​rie​s/c​egc​ore​/as​set​s/g​plu​gin​s/g​too​lti​p/g​too​lti​p.c​ss
    Feuille de style URL momentanément inaccessible

    ​/co​mpo​nen​ts/​com​_im​age​sho​w/a​sse​ts/​css​/st​yle​.cs​s
    Feuille de style URL momentanément inaccessible

    ​/me​dia​/ju​i/c​ss/​boo​tst​rap​.mi​n.c​ss
    Feuille de style URL momentanément inaccessible

    /pl​ugi​ns/​sys​tem​/js​ntp​lfr​ame​wor​k/a​sse​ts/​3rd​-pa​rty​/bo​ots​tra​p/c​ss/​boo​tst​rap​-re​spo​nsi​ve-​fro​nte​nd.​min​.cs​s
    Feuille de style URL momentanément inaccessible

    /te​mpl​ate​s/j​sn_​boo​t_p​ro/​css​/co​lor​s/c​hri​stm​as.​css
    Feuille de style URL momentanément inaccessible

    htt​p:/​/s7​.ad​dth​is.​com​/js​/30​0/a​ddt​his​_wi​dge​t.j​s
    Script Bloqué

    htt​ps:​//w​ww.​gst​ati​c.c​om/​rec​apt​cha​/ap​i2/​r20​150​804​120​649​/re​cap​tch​a__​en.​js
    Script Bloqué

    /te​mpl​ate​s/j​sn_​boo​t_p​ro/​ima​ges​/ic​ons​/ic​on-​tex​t-i​nfo​.pn​g
    Image URL momentanément inaccessible

    /te​mpl​ate​s/j​sn_​boo​t_p​ro/​ima​ges​/fo​ote​r-i​nne​r-b​g-t​op.​png
    Image URL momentanément inaccessible

    la dernière ligne est un très bon exemple pour montrer ce que je trouve incompréhensible : ce fichier image, googlebot le trouve très bien sur la page d'accueil ! pourquoi ne peut-il y accéder depuis cette page contact ?..

    ... et puis c'est quoi ces fichiers "momentanément inaccessibles" ??

    J'ai refait le test sur la page d'accueil, et de 2 ressources bloquées, je suis revenue à une dizaines de blocages, dont la plupart "momentanément inaccessibles"

    Ma foi, je referai le test demain, il y a peut-être un bug quelque part.

    Bonne nuit, et encore merci pour l'entraide

    Laisser un commentaire:


  • PhilJ
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Bonjour,


    Envoyé par PieceOfCake Voir le message
    S'il ne s'agit que de ça alors, il est probable que la solution évoquée ci-après devrait résoudre ton problèem : https://dj-extensions.com/blog/gener...mpaign=default

    Personnellement je préfère continuer à agir au cas par cas, mais cette solution semble la moins pire des vite fait ( ... bien fait)
    Oui. J'avais pensé à une solution toute simple comme celle-là et j'ai vu qu'elle était récemment préconisée (quoi qu'en plus développée) sur le forum anglophone de Drupal.

    Juste une remarque sur ce code. Si les dossiers /modules/, /plugins/ et /components/ sont globalement bloqués, il faudrait peut-être bien ajouter au code que tu évoques de quoi autoriser aussi la visite des images :
    Allow: *.gif
    Allow: *.jpg
    Allow: *.png

    de façon à ce que Google ne ronchonne pas de nouveau .

    => A tester là aussi.

    __________________

    @lomart :

    As-tu fait des tests de compatibilité Google mobile avec cette méthode des .htaccess ? Si oui, avec quels résultats sur la page de test qui semble servir de référence (= https://www.google.com/webmasters/tools/mobile-friendly) ? Ce que je me demande surtout, c'est si Google respecte bien les directives des .htaccess.

    Laisser un commentaire:


  • PieceOfCake
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Envoyé par PhilJ Voir le message
    Tu ne te trompes pas, et je n'ai pas le sentiment d'avoir évoqué une bien inutile (et peut-être même, comme tu l'écris, improbable) indexation des fichiers .js et .css, qui ne sont que des outils pour l'affichage et / ou le fonctionnement des pages.

    En revanche, la question se pose bien pour les images et pour les fichiers .php, car si on autorise Google le glouton à accéder à ces fichiers, il peut très bien les ajouter à son index.

    Toutefois, comme je l'écrivais précédemment, le cas est probablement différent pour les images et pour les .php, l'accès à ces derniers étant normalement protégé.
    S'il ne s'agit que de ça alors, il est probable que la solution évoquée ci-après devrait résoudre ton problèem : https://dj-extensions.com/blog/gener...mpaign=default

    Personnellement je préfère continuer à agir au cas par cas, mais cette solution semble la moins pire des vite fait ( ... bien fait)

    Laisser un commentaire:


  • PhilJ
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Envoyé par lomart Voir le message
    [...] il est fastidieux de faire la liste des zones à autoriser
    Ce n'est si laborieux en réalité : je viens de le faire en ajoutant quelques lignes au fichier robots.txt d'un site vitrine dont les seules particularités sont un module affichant un diaporama d'accueil + un module affichant un formulaire en page de contact. Montre en main : 1/2 heure, temps pris pour faire les tests de compatibilité inclus pour m'assurer que plus aucune ressource n'empêche Google de vérifier que le site est bien compatible avec les smartphones.

    Laisser un commentaire:


  • PhilJ
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Envoyé par PieceOfCake Voir le message
    Bonjour,

    je viens mêler mon grain de sel en bout du bout, j'ai comme le sentiment que vous êtes légèrement parti en délirade là non ?

    Sauf erreur de ma part (ça peut), les disallow - allow pour l'ergonomie mobile que demande Google ne visent pas à indexer les fichiers .js, .css, .php et autres encore, mais juste à pouvoir y accéder au moment de l'indexation des .html habituels à fin uniquement de pouvoir vérifier qu'ils sont conformes aux normes ou aux modèles que souhaitent voir Google fleurir sur nos écrans.

    Je ne pense pas avoir jamais vu écrit nulle part que ces fichiers sont indexés (et donc stockés : sinon bonjour le problème de gestion de version) et donc stockés quelque part par Google ou bien me trompé je ?
    Tu ne te trompes pas, et je n'ai pas le sentiment d'avoir évoqué une bien inutile (et peut-être même, comme tu l'écris, improbable) indexation des fichiers .js et .css, qui ne sont que des outils pour l'affichage et / ou le fonctionnement des pages.

    En revanche, la question se pose bien pour les images et pour les fichiers .php, car si on autorise Google le glouton à accéder à ces fichiers, il peut très bien les ajouter à son index.

    Toutefois, comme je l'écrivais précédemment, le cas est probablement différent pour les images et pour les .php, l'accès à ces derniers étant normalement protégé.
    Dernière édition par PhilJ à 06/08/2015, 21h30

    Laisser un commentaire:


  • lomart
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Sauf erreur de ma part (ça peut), les disallow - allow pour l'ergonomie mobile que demande Google ne visent pas à indexer les fichiers .js, .css, .php et autres encore, mais juste à pouvoir y accéder au moment de l'indexation des .html habituels à fin uniquement de pouvoir vérifier qu'ils sont conformes aux normes ou aux modèles que souhaitent voir Google fleurir sur nos écrans.

    Je ne pense pas avoir jamais vu écrit nulle part que ces fichiers sont indexés (et donc stockés : sinon bonjour le problème de gestion de version) et donc stockés quelque part par Google ou bien me trompé je ?
    +1
    C'est bien pour cela que je dis "arrêtons la parano" et facilitons le travail de Google en lui ouvrant toutes les portes sauf les petits recoins vraiment secrets

    Laisser un commentaire:


  • PieceOfCake
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Bonjour,

    je viens mêler mon grain de sel en bout du bout, j'ai comme le sentiment que vous êtes légèrement parti en délirade là non ?

    Sauf erreur de ma part (ça peut), les disallow - allow pour l'ergonomie mobile que demande Google ne visent pas à indexer les fichiers .js, .css, .php et autres encore, mais juste à pouvoir y accéder au moment de l'indexation des .html habituels à fin uniquement de pouvoir vérifier qu'ils sont conformes aux normes ou aux modèles que souhaitent voir Google fleurir sur nos écrans.

    Je ne pense pas avoir jamais vu écrit nulle part que ces fichiers sont indexés (et donc stockés : sinon bonjour le problème de gestion de version) et donc stockés quelque part par Google ou bien me trompé je ?

    Laisser un commentaire:


  • PhilJ
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Envoyé par lomart Voir le message
    Soit il indexe pour une raison louable pour notre référencement: dans ce cas, on est content.
    Soit il le fait pour une raison inavouable: dans ce cas, il doit rigoler devant notre suggestion de ne pas entrer
    Oui, enfin il n'est pas rare de voir des rognures de pages traîner dans l'index de Google.

    Je pense que de toute façon surveiller l'indexation de près, surtout au début de la vie du site et après l'ajout d'extensions est une sage précaution.

    Laisser un commentaire:


  • lomart
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    Aucun, mais cette absence d'intérêt n'empêche pas l'indexation.
    Soit il indexe pour une raison louable pour notre référencement: dans ce cas, on est content.
    Soit il le fait pour une raison inavouable: dans ce cas, il doit rigoler devant notre suggestion de ne pas entrer

    Laisser un commentaire:


  • PhilJ
    a répondu
    Envoyé par lomart Voir le message
    Quel intérêt pour Google d'indexer des fichiers php [...] ?
    Aucun, mais cette absence d'intérêt n'empêche pas l'indexation.


    Avez-vous des exemples de fichiers php indexés par Google qui ne mériteraient pas de l'être. Je viens de faire des sondages dans les cinq milliards deux cent quatre-vingts millions de résultats à la requête Google "filetype: php" (supprimer l'espace), je n'en ai pas trouvé
    Je comprends, mais un fichier .PHP peut générer du contenu. Encore que, c'est vrai, un fichier index.html vide est généralement présent pour empêcher l'indexation des .PHP situés dans les dossiers de Joomla, et qu'une instruction empêche souvent une exécution directe du fichier dès le début : <?php defined('_JEXEC') or die('Restricted access'); ?>.

    Laisser un commentaire:


  • lomart
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    où l'on souhaite que les dossiers css, images et js soient indexés, mais pas les fichiers du dossier parent tels que fichier.php.
    Quel intérêt pour Google d'indexer des fichiers php qui ne produisent pas du contenu ?
    Avez-vous des exemples de fichiers php indexés par Google qui ne mériteraient pas de l'être. Je viens de faire des sondages dans les cinq milliards deux cent quatre-vingts millions de résultats à la requête Google "filetype: php" (supprimer l'espace), je n'en ai pas trouvé

    Et si vraiment, cela nous empêche de dormir, il est toujours possible de faire un :
    Disallow /dossier-x/*.php$

    Mon principe est j'autorise TOUT sauf ce que je ne veux pas.
    On connait les zones interdites de notre site alors qu'il est fastidieux de faire la liste des zones à autoriser
    Dernière édition par lomart à 06/08/2015, 18h21

    Laisser un commentaire:


  • PhilJ
    a répondu
    Re : Accès de Googlebot aux fichiers CSS et JS impossible sur le site

    PhilJ :
    2 - Quelles instructions mettrais-tu dans les .htaccess en question ?

    une protection par mot de passe du dossier. Ce que sait très bien faire aesecure.
    Il faut toutefois tester que tous les composants que l'on utilise le supportent.
    Compris pour les dossiers, mais pour les fichiers ?

    Voir l'exemple déjà proposé ici : http://forum.joomla.fr/showthread.ph...=1#post1070484.

    Rappel de l'exemple :

    |_ dossier-x
    |_ fichier.php
    |_ index.html

    |_ dossier-x_css
    |_ dossier-x_images
    |_ dossier-x_js

    où l'on souhaite que les dossiers css, images et js soient indexés, mais pas les fichiers du dossier parent tels que fichier.php.
    Dernière édition par PhilJ à 06/08/2015, 17h20

    Laisser un commentaire:

Annonce

Réduire
Aucune annonce pour le moment.

Partenaire de l'association

Réduire

Hébergeur Web PlanetHoster
Travaille ...
X