一、访问头限制

1、使用浏览器伪装头。

2、多找几个浏览器的访问头,构建用户代理池。

二、频繁爬取,IP被封了

1、使用time.sleep方法,降低爬虫的速度。

2、花钱使用代理IP,讯代理: http://www.xdaili.cn/

三、验证码限制

1、让程序停一会,自己手动打码。

2、机器学习之后自动识别。

3、花钱调用API,云打码: http://www.yundama.com/

四、通过异步加载技术

1、手动抓一个包,分析url,找出规律之后批量爬取。可选工具 fiddler 。

2、使用selenium全局渲染之后直接取数据。

五、Cookie 限制

有时候会遇到给网站提交post失败,或者想进行一些操作的时候报一些莫名其妙的错误,有可能是网站读取了我们的 Cookie 信息,如果没有读到 Cookie ,网站就发现我们其实是没有身份证的偷渡者,解决方法就是注册登录一下,加上Cookie信息就好了。

六、编码错误

有的网站明明在charset里写的是utf-8,但是实际又用的是其他的编码,这就导致我们的程序在爬取时被 charset 欺骗,最后乱码。

解决方法:res.encoding=res.apparent_encoding


小利利很快乐