第 6 章抓取挑战和解决方案

在本章中，我们将介绍：

开发一个可靠的抓取工具从来都不是一件容易的事，我们需要考虑很多假设。如果网站瘫痪了怎么办？如果响应返回意外数据怎么办？如果您的 IP 被限制或封锁怎么办？如果需要认证怎么办？虽然我们永远无法预测和涵盖所有假设，但我们将讨论一些常见的陷阱、挑战和解决方法。

请注意，其中一些示例需要访问我作为 Docker 容器提供的网站。它们比我们在前面章节中使用的简单静态站点需要更多的逻辑。因此，您需要使用以下 Docker 命令拉取并运行 Docker 容器：

docker pull mheydt/pywebscrapecookbook
docker run -p 5001:5001 pywebscrapecookbook