Re : Comprendre comment Google "voit" mon site
bonjour les gens,
juste quelques infos supplémentaire sur l'utilisation du cache.
Ce n est pas compliqué mais cela nécéssite quelques reflexions.
La premiere est de ne pas l activer sur un site en cours de developpement (attendre 15 ou 30 minutes pour voir la modif ou le vider toutes les 30 secondes, c est pas le top).
Les pages statiques.
Activer le cache n'accellereras pas forcement les choses (surtout si les pages sont légères (<= 500ko), mais cela économisera des ressources car le contenu ne sera pas passé par la phase execution de php et les requetes sql. Le code html sera envoyé directement au navigateur du visiteur. Cette economie se voit surtout sur les sites a fort trafic.
Si la page est d'un poids supérieur a 500ko, alors les gains de performances seront d'un coup plus visible. Les lenteurs ne seront la que lors de la première compilation de la page et ensuite a chaque fois que celui ci deviens périmé et qu il doit être actualisé.
Les modules statique:
On peut aussi considérer les modules de menu, de connexion, les cartes google servant de plan d'accès... de la même manière car ceux ci ne changes pas avec le temps qui passe. On peut sans soucis activer le cache pour ce type de module.
Les pages dynamique :
La il faut voir si la page evolues dans le temps ou pas et la validité des données affichées. C'est en fonction du composant utilisé.
Par exemple, il ne faut pas mettre un composant tel que kunena en cache, car les utilisateurs pourront avoir des difficultés d'utilisation.
Si le forum est bien animé, la frequence de publication des messages risque aussi d'induire une hausse de l'utilisation des ressources car il faudras générer une nouvelle page pour chaque modification.
Par contre une galerie d'images crée avec phocagallery peut être mise en cache si son contenu n est pas actualisé par les utilisateurs eux meme, car la frequence de mise a jour sera inferieur au temps de mise en cache du fichier. Une galerie presentant vos dernieres vacances auras plutot interet à etre mise en cache.
Les modules dynamique :
un exemple simple, un module de compteur de visite. Ce module ne verras le total des visites changer que lorsque le cache sera mis a jour, donc cela peut être problématique pour avoir des statistiques en temps réel a fournir a vos visiteurs.
Pour ce type de module le cache est à éviter.
un module devant afficher des données financieres, par exemple, peut avoir un cache de 10 minutes si la frequence de changement des informations est a trois ou 5 minutes. Cela signifies que les données affichées sur votre site changeront toutes les 10 minutes.
Quelle fréquence de rafraichissement ?
La fréquence de rafraichissement du cache peut etre réglée individuellement pour chaque composant ou module.
Il faut cependant éviter les fréquences de rafraichissement inférieures a 5 minutes, car si la fréquence d actualisation est aussi élevée, alors autant
ne pas en avoir.
Le type de réglage du cache d'un site depend des ressources de votre serveur:
Soit vous avez de l'espace disque,
soit vous avez de l'éspace mémoire.
Le mode de cache progressif est a utiliser si vous comptez mettre en cache des modules avec des intervalles de rafraichissement spécifique.
En résumé :
Pour savoir sil faut activer le cache pour un composant ou un module, trois paramètres sont à prendre en compte :
-- la fréquence des mises a jour du contenu.
--la durée de validité des informations devant être mises en cache.
-- la frequence de rafraichissement du cache.
'Bienvenue chez Rouch Energies' est le titre de ton site tel que tu l'as défini dans la zone 'Nom du Site' en mode administration : Site > Configuration - onglet Site comme le montre l'image ci-dessous :
[ATTACH=CONFIG]27536[/ATTACH]
Et ce nom de site apparaît dans les url de ton site car tu as également configuré dans le même formulaire (zone en bas à droite sur l'image) : la valeur 'Nom du site dans les titres' sur la valeur 'Après' il y a également le possibilités 'Après ou 'Non'
Petit retour en arrière sur ce post : comme je l'avais déjà écrit, 'Bienvenue chez Rouch Energies' n'est pas le titre de mon site, qui est tout simplement 'Rouch Energies'.
Ceci dit, en lançant une analyse gratuite proposée par un prestataire qui faisait sa pub dans ma boite mail, je lis que "le titre de votre site es trop court : 29 caractères"
... chiffre qui m'a interpellé, puisque le vrai titre n'en compte carrément que 14.
Conclusion : serait considéré comme le titre de mon site... le titre de l'article (d'ailleurs non publié car remplacé par des modules, je ne sais plus trop comment j'y suis arrivée d'ailleurs) censé apparaître en page d'accueil.
(...) Joomla ne fabrique pas les urls avec le nom du menu mais avec son alias, ce qui te permet de changer le nom du menu sans changer l'alias (tu me suis ?) et de laisser Google en dehors du coup.
Par défaut les alias sont fabriqués à partir des noms de menus, des noms de catégories etc... en remplaçant les espaces par des - plus quelques autres règles moins utiles.
Renommer un libellé de menu sans changer l'alias te permet de gérer tranquillement ton interface utilisateur sans soucis vis à vis des crawlers de toute sorte (y a pas que Google !), changer le contenu de l'alias est tout aussi facile .... mais plus dangereux
... serait-ce à dire que je pourrais sans danger pour le référencement de mon site renommer l'article 'Bienvenue chez Rouch Energies' (nom bidon mis là juste pour me souvenir que c'était le texte destiné à figurer en première page, sans penser que ce nom bidon se retrouverait partout sur Google attaché au nom du site) en autre chose de 65 caractères maxi, sans que cela change grand chose pour Google ?
L'URL de la page d'accueil ne serait pas impactée, bien sûr, mais est-ce que ce changement de balise titre peut avoir des répercussions insoupçonnées pour la néophyte que je suis sur le référencement du site ?
D'avance merci pour cet éclaircissement
(maintenant que je peux (enfin !) faire les changements "en live" ma légère tendance à agir d'abord et à réfléchir ensuite n'est plus pardonnée par le système)
Flo, Ariège
Il n'y a que celui qui a honte d'apprendre qui a peur de demander
Petit retour en arrière sur ce post : [...] en lançant une analyse gratuite proposée par un prestataire qui faisait sa pub dans ma boite mail, je lis que "le titre de votre site est trop court : 29 caractères."
...Il a raison : la longueur optimale est d'environ 60 à 65 caractères (Google).
En dessous de cet optimum, on perd de bonnes occasions de « placer » des mots clés significatifs qui pourraient placer le site en position favorable dans les SERP.
Inversement, au-delà de 65 caractères, Google utilisera ses grands ciseaux (le titre sera tronqué dans les résultats de recherche), et surtout, le « poids » des mots-clés diminuera (c'est ce que j'appelle la dilution du référencement, sur le modèle de « trop d'info[s] tue l'info »).
Il faut raisonner de la même façon pour la balise méta <description> : 150 caractères est optimal. Moins, c'est dommage, plus ce sera trop.
... serait-ce à dire que je pourrais sans danger pour le référencement de mon site renommer l'article 'Bienvenue chez Rouch Energies' [...] en autre chose de 65 caractères maxi, sans que cela change grand chose pour Google ?
..Strictement aucun danger .
Google (comme les autres moteurs) modifiera les données de son index en conséquence, quelques temps après tes modifications. Et un peu plus tard encore, il reverra le positionnement de la page dans les SERP en tenant compte de ces évolutions.
L'URL de la page d'accueil ne serait pas impactée, bien sûr, mais est-ce que ce changement de balise titre peut avoir des répercussions insoupçonnées pour la néophyte que je suis sur le référencement du site ?
...Les répercussions ne pourront être que positives si tu tiens compte des règles de rédaction de la balise <title> : (1) se rapprocher de 60 à 65 caractères, pas plus, pas moins, (2) utiliser des mots-clés significatifs, tout en évitant les collections de mots-clés (la balise <title> doit rester lisible, et n'a rien à voir avec la balise <keywords>, laquelle n'a d'ailleurs pratiquement plus aucune utilité SEO).
Parmi les mots-clés des balises <title> : ne pas oublier le nom de l'entreprise, et bien sûr le secteur d'activité / le contenu des pages, mais aussi, et c'est sûrement au moins aussi important, la (géo)localisation, parce qu'il serait étonnant qu'un client situé dans le Nord ou l'Est de la France te fasse venir d'Ariège pour installer un chauffe-eau.
A éviter absolument, parce que c'est du gaspillage d'espace : les mots 'Accueil', 'Bienvenue', et consort. Par exemple, une balise titre (= <title>) qui contient la chaîne suivante : « Accueil - Bienvenue sur notre site ... » est une chaîne de 33 caractères, donc d'environ la moitié du potientiel de la balise titre. Elle est pourtant totalement vide sur le plan SEO, car aucun client potentiel ne recherchera une entreprise sur les mots clés 'accueil', 'bienvenue', 'site'.
Il faut d'ailleurs raisonner de la même façon pour le contenu de la page : les mots 'accueil' et 'bienvenue' ne devraient jamais être utilisés sur la page d'accueil, surtout dans une balise <H1>.
Enfin, contrôler si les mots-clés de chaque <title> sont bien présents aussi dans le contenu proprement dit des pages est certainement une bonne règle complémentaire à suivre, car on peut penser que Google a les moyens de vérifier si le titre est bien en adéquation avec ce qu'il annonce, c'est-à-dire le contenu interne des pages tel qu'il est accessible aux internautes.
Re : Comprendre comment Google "voit" mon site
'a'y'est, c'est fait
Bon maintenant faut attendre que Google s'en rende compte...
...mais pour ça faudrait déjà que je lui dise où trouver un sitemap (et donc d'abord que je sois capable de modifier le dit sitemap en supprimant quelques URL que je ne veux pas qu'il indexe, cf : http://forum.joomla.fr/showthread.ph...ens-du-sitemap )
Ah oui, et pour ce qui est du butagaz, si ça t'ennuie pas moi c'est plutôt le feu de bois
Flo, Ariège
Il n'y a que celui qui a honte d'apprendre qui a peur de demander
'a'y'est, c'est fait
Bon maintenant faut attendre que Google s'en rende compte...
...mais pour ça faudrait déjà que je lui dise où trouver un sitemap (et donc d'abord que je sois capable de modifier le dit sitemap en supprimant quelques URL que je ne veux pas qu'il indexe, cf : http://forum.joomla.fr/showthread.ph...ens-du-sitemap )
Très intéressant document qui, comme tu le vois à mon temps de réponse, m'aura pris quelques temps avant d'être à peu près compris. Je dis "à peu près" et ça reste un peu prétentieux, car je ne vois toujours pas trop le rapport avec mon souci de sitemap, si ce n'est qu'on peut indiquer l'adresse du sitemap dans le fichier robots.txt ?
Bon ceci dit, concernant mon sitemap, j'ai contourné le problème, en modifiant manuellement le sitemap généré par xmap pour virer de la liste tout ce qui n'avait rien à y faire (essentiellement du duplicate dû à ma mauvaise architecture, histoire de gagner du temps d'ici à ce que me décide à tout reprendre, vu que ça me fatigue rien que d'y penser...), et surtout y ajouter tout ce qui, pour une raison que j'ignore, n'y était pas (100% des articles présentant des photos d'installations).
Après avoir fait ce travail, un des passages de l'article de Christophe sur le robots.txt m'interpelle davantage qu'en 1ère lecture :
"Remarque : dans les précédentes versions de Joomla! (jusqu’à la version 3.x), il y avait aussi une ligne Disallow: /images/ qu’il convient cependant de supprimer si vous désirez que vos images puissent être indexées dans le moteur de recherche des images. Il s’agit d’une source de référencement supplémentaire."
Vérification faite, effectivement mon robots.txt interdit l'indexation du dossier images, ce que je souhaite changer car mes images sont pour moi un excellent moyen de sortir dans les résultats Google pour une localité donnée.
Ce qui appelle 3 questions :
1) peut-on écrire, pour interdire certains sous-dossiers du dossier image :
Disallow: /images/sous-dossier/sous-sous-dossier
et si oui doit-on dans ce cas mettre un slash à la fin ou pas ?
2) je n'ai pas intégré directement le fichier image dans mes pages "réalisations". J'ai utilisé sigplus, avec une balise du type :
{gallery width=400 height=300 deftitle="titre" defdescription="légende"}image-1.jpg{/gallery}
Très joli résultat visuel (en tout cas moi j'aime bien), bien responsive et tout, avec affichage en grand au clic etc. mais......... ce type d'insertion permet-il aux moteurs de recherche de comprendre qu'il y a une image à cet endroit ?
3) pour dire aux moteurs qu'il y a une image, je pourrais inclure des balise <image:image> dans mon sitemap. Avec notamment l'URL de l'image, son titre, sa légende, etc.
...ce qui reviendrait à dire : dans la page http://www.exemple.fr/page-1
il y a l'image nom-image.jpg qui est rangée dans le dossier http://www.exemple.fr/images/sous-dossier
C'est bon ? Je peux faire ça ? ou bien est-ce que l'utilisation de sigplus pour l'intégration de l'image dans la page va empêcher les moteurs de comprendre ???
Flo, Ariège
Il n'y a que celui qui a honte d'apprendre qui a peur de demander
...Merci camarade PieceOfCake, et merci aussi bien sûr à Christophe.
Juste une remarque : la méthode très astucieuse expliquée par Christophe consistant à déposer un .htaccess dans le dossier à protéger des « regards » indiscrets (plutôt que d'intervenir dans le robots.txt) ne protège en fait que les pages web — en l'occurrence, si j'ai bien compris, en les modifiant au vol.
Cependant, cela ne peut pas protéger les autres types de documents, par exemple les PDF (= le Pire Des Formats ?).
=> Quelqu'un aurait-il une technique à proposer aussi intéressante que celle mentionnée par Christophe pour protéger à la fois efficacement et discrètement les documents autres que HTML dans tout un dossier donné ?
Autre question (NON indiscrète), à l'adresse de Florence : y a-t-il, sur ton site, des liens visibles vers les documents à protéger ? Je précise que (bien sûr !) je ne te demande pas quelles sont les URL de ces documents, mais seulement de quel type ils sont (pages web ? PDF ? images ? ...) et s'ils sont déjà accessibles depuis ton site via des hyperliens ?
robots.txt [...] 1) peut-on écrire, pour interdire certains sous-dossiers du dossier image : Disallow: /images/sous-dossier/sous-sous-dossier
et si oui doit-on dans ce cas mettre un slash à la fin ou pas ?
...Oui, si on demande que tout le contenu du dossier sous-sous-dossier ne soit pas indexé par les moteurs de recherche :
Disallow: /images/sous-dossier/sous-sous-dossier/
En revanche, pour que le seul fichier fichier ne soit pas indexé, il ne faut pas ajouter le slash final :
Disallow: /images/sous-dossier/fichier
2) je n'ai pas intégré directement le fichier image dans mes pages "réalisations". J'ai utilisé sigplus, avec une balise du type : {gallery width=400 height=300 deftitle="titre" defdescription="légende"}image-1.jpg{/gallery}
[...] ce type d'insertion permet-il aux moteurs de recherche de comprendre qu'il y a une image à cet endroit ?
...Oui, sous réserve que les images soient associées à un attribut alt, ce qui est semble-t-il le cas, et que l'accès au dossier contenant les images ne soit pas gêné par le robots.txt, ce qui n'est pas (ou pas encore) le cas puisque ton robots.txt actuel contient toujours ces deux lignes :
Disallow: /images/
Disallow: /cache/
Explication :
Les grandes photos se trouvent dans un sous-dossier de /images. Donc, vu le robots.txt actuel, elles ne seront pas indexées.
Les miniatures sont en cache (option que tu as dû cocher dans Sigplus). Donc /cache/ empêche leur indexation.
Enfin, pour rappel, les directives de robots.txt n'interdisent rien du tout à personne. Elles demandent seulement aux moteurs de recherche (et à eux seuls), de ne pas indexer — ou d'indexer par exception — des fichiers et / ou des dossiers. On ne peut donc définitivement pas compter sur elles pour garder un secret :-\
Autre question (NON indiscrète), à l'adresse de Florence : y a-t-il, sur ton site, des liens visibles vers les documents à protéger ? Je précise que (bien sûr !) je ne te demande pas quelles sont les URL de ces documents, mais seulement de quel type ils sont (pages web ? PDF ? images ? ...) et s'ils sont déjà accessibles depuis ton site via des hyperliens ?
PhilJ
PhilJ,
Ca va sûrement te faire hurler après tout le temps que tu as pris à m'expliquer pourquoi et comment il fallait que je modifie mon architecture, mais en fait les seuls liens que je veux bannir de mon sitemap sont les liens duplicate content...
Je ne sollicitais pas le moyen de protéger des dossiers ou des fichiers sensibles (à vrai dire je ne crois en avoir aucun), mais juste le moyen de m'acheter du temps pour reprendre l'architecture du site pendant que les moteurs indexent déjà son contenu...
Flo, Ariège
Il n'y a que celui qui a honte d'apprendre qui a peur de demander
...Oui, si on demande que tout le contenu du dossier sous-sous-dossier ne soit pas indexé par les moteurs de recherche :
Disallow: /images/sous-dossier/sous-sous-dossier/
En revanche, pour que le seul fichier fichier ne soit pas indexé, il ne faut pas ajouter le slash final :
Disallow: /images/sous-dossier/fichier
Clair comme de l'eau de roche, comme d'habitude, j'adore.
(non je ne te demanderai pas en mariage, je me suis déjà grillée avec PieceofCake et avec Christophe )
...Oui, sous réserve que les images soient associées à un attribut alt, ce qui est semble-t-il le cas, et que l'accès au dossier contenant les images ne soit pas gêné par le robots.txt, ce qui n'est pas (ou pas encore) le cas puisque ton robots.txt actuel contient toujours ces deux lignes :
Disallow: /images/
Disallow: /cache/
Oui, j'ai vu ça, c'est bien pour ça que je voulais savoir comment écrire correctement les choses, parce qu'après tout il y a des tas d'images dans certains sous-dossiers qui ne présentent aucun intérêt pour les moteurs et mon référencement.
Enfin, pour rappel, les directives de robots.txt n'interdisent rien du tout à personne. Elles demandent seulement aux moteurs de recherche (et à eux seuls), de ne pas indexer — ou d'indexer par exception — des fichiers et / ou des dossiers. On ne peut donc définitivement pas compter sur elles pour garder un secret :-\
... ça ne me dérange pas, ce n'est pas un secret que je vais garder, juste un contenu dupliqué que je veux cacher le temps de résoudre le problème avec ta méthode... quand j'en aurai le temps et le courage.
Merci encore, et bonne soirée.
Flo, Ariège
Il n'y a que celui qui a honte d'apprendre qui a peur de demander
les seuls liens que je veux bannir de mon sitemap sont les liens duplicate content... juste le moyen de m'acheter du temps pour reprendre l'architecture du site pendant que les moteurs indexent déjà son contenu.
...Une solution provisoire pourrait dans ce cas résider dans l'utilisation d'une extension répondant au doux nom d'URL canonicalization. Voir ici sur le JED : http://extensions.joomla.org/extensi...onicalization-
Ce type d'extension permet d'ajouter une instruction indiquant quelle est l'URL canonique de la page (= son URL vraie / originale). Effet : lorsqu'un moteur rencontre deux pages au contenu identique, il néglige celle(s) qui n'incorpore(nt) pas d'URL canonique, et indexe l'unique page qui en possède une. Résultat : le duplicate content est éliminé des index des moteurs.
On ne devrait employer ce procédé que de façon exceptionnelle, lorsqu'il n'y a vraiment pas moyen d'éviter le duplicate content, du fait du CMS ou de l'une de ses extensions, ou bien encore de l'arborescence complexe du site. Donc, en l'occurrence, cela pourra te dépanner provisoirement, mais pas tenir lieu d'une vraie solution — sinon, je vais hurler de nouveau (ou même : à nouveau, histoire de changer un peu de fréquence).
Commentaire