第 9 章 代理的使用
在使用爬虫的过程中经常会遇到这样的情况,爬虫最初还可以正常运行,正常爬取数据,一切看起来都是那么美好,然而一杯茶的工夫过去,就可能出现了错误,比如返回 403 Forbldden,这时打开网页,可能会看到 “您的 IP 访问频率太高” 这样的提示,或者跳出一个验证码让我们识别,通过之后才可以正常访问,但是过—会儿又会变成这样。
出现上述现象的原因是网站采取了一些反爬虫措施。例如服务器会检测某个 IP 在单位时间内的请求次数,如果这个次数超过了指定的阂值,就直接拒绝服务,并返回一些错误信息,这种情况可以称为封IP。这样,网站就成功把我们的爬虫封禁了。
既然服务器检测的是某个 IP 在单位时间的请求次数,那么借助某种方式把 IP 伪装起来,让服务器识别不出是由我们本机发起的请求,不就可以成功防止封 IP 了吗? 这时代理就派上用场了。本章会详细介绍代理的基本知识以及各种代理的使用方式,包括代理的设置、代理池的维护、付费代理的使用、ADSL 拨号代理的搭建方法等内容,希望能够帮助爬虫脱离封 IP 的苦海。