leonax.net/res 上有好多美女图 我很喜欢. 窈窕淑女 君子好逑. 每天看看美女心情好能长寿. 爪取图片的第一步就是分析页面的HTML代码, 然后通过各种DOM库来解析出图片IMG标签.
我自己写了个免费上传的图床, 支持 API调用, 无需注册.
于是通过 PhpQuery 简单抓取 leonax.net 上的每页上的图片, 也就是每篇博文上的第一张图片 不是所有图片 但足够了. 第一张图片是比较好的 (据 leonax 本人说是经过他本人挑选的)
$ip = get_ip_address();
$cnt = 0;
$err_cnt = 0;
function picture_crawler($url) {
global $ip, $cnt, $err_cnt;
$doc = phpQuery::newDocumentFile($url);
foreach(pq('img') as $p) {
$img = pq($p)->attr('data-src');
$url = "https://leonax.net".$img;
$desc = "Beauties - 唯美卷轴";
if (uploadPic($url, $desc, $desc, $desc . " @$img", $err, true, $ip)) {
$cnt ++;
echo "OK = $cnt $err \n";
} else {
$err_cnt ++;
echo str_replace("
", "\n", "Error = $err_cnt $err \n");
}
echo $url . " \n";
}
}
for ($i = 1; $i < = 122; $i ++) {
$url = "https://leonax.net/res/page/$i/";
echo "$url \n";
}
echo "OK = $cnt Err = $err_cnt";
这次抓取了 800张图片, 还有 29张是 无法成功上传 可能原因是 - 以前已经上传过了 (根据图片大小 尺寸和 md5 哈希值判断是否重复图片) 还有就是图片大小过于大 (最大5M).
强烈推荐
- 英国代购-畅购英伦
- TopCashBack 返现 (英国购物必备, 积少成多, 我2年来一共得了3000多英镑)
- Quidco 返现 (也是很不错的英国返现网站, 返现率高)
- 注册就送10美元, 免费使用2个月的 DigitalOcean 云主机(性价比超高, 每月只需5美元)
- 注册就送10美元, 免费使用4个月的 Vultr 云主机(性价比超高, 每月只需2.5美元)
- 注册就送10美元, 免费使用2个月的 阿里 云主机(性价比超高, 每月只需4.5美元)
- 注册就送20美元, 免费使用4个月的 Linode 云主机(性价比超高, 每月只需5美元) (折扣码: PodCastInit2022)
- PlusNet 英国光纤(超快, 超划算! 用户名 doctorlai)
- 刷了美国运通信用卡一年得到的积分 换了 485英镑
- 注册就送50英镑 – 英国最便宜最划算的电气提供商
- 能把比特币莱特币变现的银行卡! 不需要手续费就可以把虚拟货币法币兑换
微信公众号: 小赖子的英国生活和资讯 JustYYUK