py爬取壁纸(setu)
wallhaven网站爬取
刚开始爬的时候一切顺利,但最后遇到了反爬虫机制,就是必须要登录,否则无法显示一些色图。
首先想到的就是 py 模拟登录,这里说两种解法:
在
post请求中把账号,密码输入,一般都不会成功,因为会有 JS 加密。这里可以解密,但具体我也不了解就不往下说了。可行且简单的方法,用 Cookie 绕过去。
先说一下 Cookie 的概念:在客户端对服务器发送请求,服务器会产生客户端的记录,来得知客户端之前做过什么。就比如你登录了 Bilibili,关了之后再进入就免登录了,这之间就是 Cookie 的功劳,让服务器记得你。
回归正题,模拟登录就是首先你要登录这个网站,再记录 Cookie,爬取的headers填上 Cookie,然后就进入登录后的界面了,就可以下载图片了。
1 | |
图片壁纸需要自取
下面是wallhaven网站热门壁纸。果然,某些图片是第一生产力。因为不能上传太多,就随便传了几张,可以尝试自己爬取哦。




























