Tag: 爬虫

为什么应该阻止 ChatGPT 和 Bytedance 爬虫抓取你的页面?

这几天,我发现我的一两个服务器过载(高于平常的CPU使用率),我查看了 Apache 日志,发现 ChatGPT Bot(也称为 GPTBot/1.0)和字节跳动 Bots(也称为 Bytespider)的访问记录。 您可以通过以下 BASH 命令检查访问您服务器的前 10 个 IP: #!/bin/bash awk '{a++}END{for(v in a)print v, a}' /var/log/apache2/*.log* | sort -k2 -nr | head -10 …

FACEBOOK 爬虫使用 IPv6 地址

IPv4 地址已经快不够用了 IPv6 还不是很普及. FACEBOOK 也有网络爬虫. 取名为 FACEBOT, 它们的USER-AGENT字符串是 (User Agent 是一串可以用来识别爬虫访问者身份的字符串, 可以通过这个英文在线工具 User Agent Parser来分析): facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php) facebookexternalhit/1.1 Facebot 在 系统在线 这个网络应用里 我们捕捉到了FACEBOT的身影 并且惊奇的发现 它们是用IPV6地址进行抓取的, 这些来自于 Facebook. IPV6 …