Tag: 网络爬虫

为什么应该阻止 ChatGPT 和 Bytedance 爬虫抓取你的页面?

这几天,我发现我的一两个服务器过载(高于平常的CPU使用率),我查看了 Apache 日志,发现 ChatGPT Bot(也称为 GPTBot/1.0)和字节跳动 Bots(也称为 Bytespider)的访问记录。 您可以通过以下 BASH 命令检查访问您服务器的前 10 个 IP: #!/bin/bash awk '{a++}END{for(v in a)print v, a}' /var/log/apache2/*.log* | sort -k2 -nr | head -10 …

phpbb3.15 论坛下 网络爬虫出错的解决方法

最近把我的英文算法论坛给升级到PHPBB3.15可是就发现网络爬虫 e.g. GOOGLEBOT 在浏览论坛的时候其实是会报错的. 可以用第三方网络 sniffer 或者用 CHROME的一个 user agent switcher 的插件把 user agent 设置成: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 这是由 /forum/phpbb/user.php 文件的第 235 行有错误引起的. $sql = 'SELECT * FROM …