Tag: robots.txt

为什么应该阻止 ChatGPT 和 Bytedance 爬虫抓取你的页面?

这几天,我发现我的一两个服务器过载(高于平常的CPU使用率),我查看了 Apache 日志,发现 ChatGPT Bot(也称为 GPTBot/1.0)和字节跳动 Bots(也称为 Bytespider)的访问记录。 您可以通过以下 BASH 命令检查访问您服务器的前 10 个 IP: #!/bin/bash awk '{a++}END{for(v in a)print v, a}' /var/log/apache2/*.log* | sort -k2 -nr | head -10 …

robots.txt 屏蔽了资源导致不是 mobile friendly (手机友好)

我了解到 Google 提供了这么一个测试工具, 可以测试是不是手机友好. 兴奋的把 JustYY.com 和其它一样主题 (官方 主题 2012) 的网站都放上去测试,结果都不是, 说是有两个错误, “Links Too Close” 和 “Width Wider than Screen” 然后我把坛子的网站输入进去(也是一样的主题),就显示手机友好.尼马.不会真的是RP问题吧. 于是根据提示, 说是有几个资源文件被 robots.txt 给屏蔽掉了, 然后我就对比了我的 robots.txt 和 坛子的 …