Logs du chan #afpy pour le

09:53 <alain_afpy> Comment protéger vos serveurs et lutter efficacement contre les crawlers d’IA - https://bearstech.com/societe/blog/comment-proteger-vos-serveurs-et-lutter-efficacement-contre-les-crawlers-dia
10:18 <discord_afpy> <Andy K (boss dreamer ou pas)> Salut
10:20 <discord_afpy> <euri10> est-ce que les crawlers ne crawl pas justement si il y a un llms.txt ?
10:28 <discord_afpy> <chadys> un llm.txt ? De ce que je trouve dessus c'est pas encore standardisé et c'est pour donner des consignes plus précises aux llm. Si tu ne veux pas qu'ils crawlent du tout, le robot.txt reste l'endroit pour le dire (reste à voir s'ils écoutent...)
10:29 <entwanne> s'ils t'écoutent pas tu les bloques
10:29 <discord_afpy> <euri10> https://llmstxt.org/
10:30 <discord_afpy> <euri10> ma question c'etait plus est ce que les robots ia skip le crawling si ils trouve le llms.txt
10:36 <discord_afpy> <chadys> de ce que je comprend de la proposition (qui est toujours en cours d'élaboration de toutes façons), le llm.txt c'est plutôt dans le but de guider un LLM qui cherche une info précise quand on lui pose une question. C'est pas fait pour le crawl qui est lui plutôt utilisé lors des entraînement et dont le but c'est de tout récupéré
10:37 <discord_afpy> <chadys> @entwanne on essaye mais c'est pas évident d'avoir les bonne règles ^^
10:37 <discord_afpy> <bronxae> Pour gérer un site crawlé : les entreprises qui gèrent ces LLM se comportent comme des ogres aux ressources illimités qui siphoneront tout ce sur quoi ils peuvent tomber
10:37 <Mindiell> comme le faisait google avant hein. C'est pas variment une nouveauté
10:37 <discord_afpy> <bronxae> On a bloqué (au niveau nginx) OpenAI depuis des mois, on continue à être bombardés de requêtes. La débauche de moyens...
10:37 <Mindiell> le robots.txt n'a jamais servi que de paillaisson
10:39 <discord_afpy> <dancergraham> Les grands semblent s'améliorer un peu dans le respect du robots.txt mais c'est pas beaucoup dire... https://support.claude.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler
10:41 <discord_afpy> <amine_horseman> C'est sûr après avoir crawlé tout internet les grands moteurs de recherche commence a respecter les règles 😂
10:42 <alain_afpy> Python - « Libre à vous ! » du 23 septembre 2025 - Podcasts et références - https://linuxfr.org/news/python-libre-a-vous-du-23-septembre-2025-podcasts-et-references
10:43 <discord_afpy> <chadys> @sabderemane 🙂
10:47 <discord_afpy> <sabderemane> Trop bien, merci!