第 5 章 抓取 - 行为准则

在本章中,我们将介绍:

  • 合法性的抓取和礼貌性的抓取

  • 尊重 robots.txt

  • 使用站点地图进行抓取

  • 爬行有延迟

  • 使用可识别的用户代理

  • 设置每个域的并发请求数

  • 使用自动节流

  • 缓存响应

虽然从技术上讲您可以抓取任何网站,但了解抓取是否合法非常重要。 我们将讨论抓取的法律问题,探索一般经验规则,并了解礼貌抓取并最大程度地减少对目标网站的潜在损害的最佳实践。