Comment bien paramétrer Cloudflare pour bloquer les AI crawlers?

Réduire
X
 
  • Filtrer
  • Heure
  • Afficher
Tout effacer
nouveaux messages

  • #16
    Bonjour Yann,

    je viens de réactiver le paramètre Under Attack. 1 000 crédits ont été utilisés dans IP2location en 50 minutes.

    Je ne sais pas où trouver les IPs. EN voici quelques uns :
    37.174.235.204
    34.169.31.233
    83.243.240.77

    Merci pour votre aide,
    Sincèrement,
    A. Guillen

    Commentaire


    • #17
      37.174.235.204 Orange France
      Probablement un visiteur français.

      34.169.31.233 Google Cloud États-Unis
      Un service automatisé (ex. : crawler, robot IA, proxy, test automatique) ou un outil lancé de chez Google.

      83.243.240.77 : Online SAS / Scaleway (anciennement Iliad/Free)France
      Serveur dédié ou VPS (datacenter) probablement utilisé pour :
      crawler des sites (ex. : SEO tool), exécuter des scripts automatisés ou héberger une IA ou un service web.

      Si vous observez un trafic répété, rapide ou suspect dans les logs (ex. : tentatives de connexion répétées, etc.),
      vous pouvez imposer le challenge JS via Cloudflare mais sur les trois ip, aucune n'est à bloquer par défaut.
      (voir message précédent)

      Une autre solution — probablement la plus simple à long terme — serait de traiter le problème directement à la racine :
      c’est-à-dire désactiver l’appel à IP2Location.io pour les user-agents identifiés comme des bots.

      Cela éviterait de consommer inutilement des crédits pour des visites sans valeur commerciale réelle, tout en laissant les crawlers faire leur travail.

      Voici un exemple très simple de filtre à ajouter dans le code (ou à intégrer en surcharge) :

      $userAgent = $_SERVER['HTTP_USER_AGENT'] ?? '';
      if (preg_match('/(bot|crawl|spider|slurp|wget|curl|python|libwww-perl|httpclient)/i', $userAgent)) {
      define('HIKASHOP_DISABLE_IP2LOCATION', true);
      }
      Cette constante pourrait ensuite être utilisée dans le code HikaShop :
      • On ne bloque pas ces bots, ce qui permet à des services comme Google Merchant, Bing Shopping, Facebook Catalog, ou même des IA, de lire et indexer vos produits.
      • Cela réduit considérablement la consommation de crédits IP2Location.
      • Cela évite d’utiliser des règles de sécurité trop strictes, qui risquent de bloquer des services utiles.
      Pour ma part, sur les sites e-commerce que je gère, je ne bloque pas les crawlers. Google passe régulièrement, y compris pour le Merchant Center, parfois de façon un peu agressive, mais ça se stabilise toujours au bout de quelques heures. Si tu confirmes, via le support d'hikashop, qu’un filtre de ce type peut être proprement intégré, ça permettrait de soulager pas mal d’utilisateurs, tout en conservant la géolocalisation pour les visiteurs réels.​
      Dernière édition par daneel à 12/05/2025, 09h33
      Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

      Commentaire


      • #18
        explication du code :

        1. $userAgent = $_SERVER['HTTP_USER_AGENT'] ?? '';
        Cette ligne récupère le User-Agent du visiteur.
        • Le User-Agent est une chaîne envoyée par le navigateur ou le robot pour s'identifier (par exemple : Chrome, Firefox, Googlebot, GPTBot…).
        • Si la clé 'HTTP_USER_AGENT' n'existe pas (cas très rare), on utilise une chaîne vide par défaut ('')
        2. preg_match('/(bot|crawl|spider|slurp|wget|curl|python|libwww-perl|httpclient)/i', $userAgent)
        Cette ligne analyse le contenu du User-Agent.
        • Elle utilise une expression régulière (regex) pour vérifier s’il contient l’un des mots suivants :
          • bot, crawl, spider, slurp → bots des moteurs de recherche ou crawlers classiques
          • wget, curl, python, libwww-perl, httpclient → outils ou langages utilisés par des scripts automatisés
        • Le i signifie que la recherche est insensible à la casse (majuscules/minuscules).

        Si l’un de ces mots est trouvé dans la chaîne, cela signifie probablement que le visiteur n’est pas un humain, mais un robot ou un outil automatisé.



        Joomla User Group (JUG) Lille : https://www.facebook.com/groups/JUGLille/

        Commentaire

        Annonce

        Réduire
        Aucune annonce pour le moment.

        Partenaire de l'association

        Réduire

        Hébergeur Web PlanetHoster
        Travaille ...
        X