leonax.net/res 上有好多美女图 我很喜欢. 窈窕淑女 君子好逑. 每天看看美女心情好能长寿. 爪取图片的第一步就是分析页面的HTML代码, 然后通过各种DOM库来解析出图片IMG标签.
我自己写了个免费上传的图床, 支持 API调用, 无需注册.
于是通过 PhpQuery 简单抓取 leonax.net 上的每页上的图片, 也就是每篇博文上的第一张图片 不是所有图片 但足够了. 第一张图片是比较好的 (据 leonax 本人说是经过他本人挑选的)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 | $ip = get_ip_address(); $cnt = 0; $err_cnt = 0; function picture_crawler($url) { global $ip, $cnt, $err_cnt; $doc = phpQuery::newDocumentFile($url); foreach(pq('img') as $p) { $img = pq($p)->attr('data-src'); $url = "https://leonax.net".$img; $desc = "Beauties - 唯美卷轴"; if (uploadPic($url, $desc, $desc, $desc . " @$img", $err, true, $ip)) { $cnt ++; echo "OK = $cnt $err \n"; } else { $err_cnt ++; echo str_replace("<br />", "\n", "Error = $err_cnt $err \n"); } echo $url . " \n"; } } for ($i = 1; $i < = 122; $i ++) { $url = "https://leonax.net/res/page/$i/"; echo "$url \n"; } echo "OK = $cnt Err = $err_cnt"; |
$ip = get_ip_address(); $cnt = 0; $err_cnt = 0; function picture_crawler($url) { global $ip, $cnt, $err_cnt; $doc = phpQuery::newDocumentFile($url); foreach(pq('img') as $p) { $img = pq($p)->attr('data-src'); $url = "https://leonax.net".$img; $desc = "Beauties - 唯美卷轴"; if (uploadPic($url, $desc, $desc, $desc . " @$img", $err, true, $ip)) { $cnt ++; echo "OK = $cnt $err \n"; } else { $err_cnt ++; echo str_replace("<br />", "\n", "Error = $err_cnt $err \n"); } echo $url . " \n"; } } for ($i = 1; $i < = 122; $i ++) { $url = "https://leonax.net/res/page/$i/"; echo "$url \n"; } echo "OK = $cnt Err = $err_cnt";
这次抓取了 800张图片, 还有 29张是 无法成功上传 可能原因是 - 以前已经上传过了 (根据图片大小 尺寸和 md5 哈希值判断是否重复图片) 还有就是图片大小过于大 (最大5M).
GD Star Rating
a WordPress rating system
本文一共 215 个汉字, 你数一下对不对.a WordPress rating system
上一篇: 49.99 英镑入手 Roku 智能电视盒
下一篇: 如何在服务器重启的时候自动发一推 (IFTTT - Maker 频道)?
扫描二维码,分享本文到微信朋友圈
想看劲暴的图片还是要回源站哦,最近又开始更新了:https://leonax.net/res/
不错 你更新的频率几天一次?
再更新一下 我试试能否 自动同步
至少一天一次吧
没想到博主还有这个爱好啊!
嗯 都是男人嘛