合法性的抓取和礼貌性的抓取

这个示例中没有真正的代码。它只是对与抓取所涉及的法律问题相关的一些概念的阐述。我不是律师，所以不要将我在这里写的任何内容视为法律建议。我只是指出一些使用刮刀时需要注意的事项。

准备工作

抓取的合法性分为两个问题：

内容所有权
拒绝服务

从根本上讲，网络上发布的任何内容都可供阅读。每次加载页面（任何页面）时，浏览器都会从网络服务器下载该内容并将其直观地呈现给您。因此，从某种意义上说，您和您的浏览器已经在抓取您在网络上看到的任何内容。根据网络的本质，由于有人在网络上公开发布内容，他们本质上会要求您获取该信息，但通常仅用于特定目的。

最大的问题在于创建自动化工具，这些工具可以直接在互联网上查找并复制事物，这些事物可以是数据、图像、视频或音乐——本质上是由其他人创建并代表对人们有价值的事物。创造者或所有者。当明确制作该项目的副本供您个人使用时，这些项目可能会产生问题，并且在制作副本并使用该副本为您或他人谋取利益时更有可能产生问题。

视频、书籍、音乐和图像是出于个人或商业用途而制作副本的合法性的一些明显令人担忧的项目。一般来说，如果您从开放网站（例如不需要授权访问或需要付费才能访问内容的网站）中抓取此类内容，那么您就可以了。还有合理使用规则，允许在某些情况下重复使用内容，例如在课堂场景中共享少量文档，其中发布供人们学习的知识是共享的，并且不会产生真正的经济影响。

从网站上抓取数据通常是一个更加模糊的问题。我所说的数据是指作为服务提供的信息。根据我的经验，一个很好的例子是发布到提供商网站上的能源价格。这些通常是为了方便客户而提供的，但并不是为了让您自由抓取数据并将其用于您自己的商业分析服务。这些数据通常可以毫无顾虑地使用，如果您只是为非公共数据库收集这些数据，或者您只是将其用于自己的用途，那么它可能没问题。但如果您使用该数据库来驱动自己的网站并以您自己的名义共享该内容，那么您可能需要小心。

重点是，请查看网站上的免责声明/服务条款，了解您可以使用该信息做什么。它应该被记录下来，但如果没有，那并不意味着你就可以发疯了。请务必小心并运用常识，因为您正在利用他人的内容来达到自己的目的。

另一个问题，我将其归为拒绝服务的概念，与收集信息的实际过程以及收集信息的频率有关。手动读取网站内容的过程与编写自动机器人不断地向网络服务器索要内容的过程有很大不同。在极端情况下，这种访问频率可能非常高，以至于拒绝其他合法用户访问该内容，从而拒绝为他们提供服务。它还可能通过增加带宽成本甚至运行服务器的电力成本来增加内容托管商的成本。

管理良好的网站将识别这些类型的重复和频繁访问，并使用 Web 应用程序防火墙等工具将其关闭，并根据 IP 地址、标头和 Cookie 制定规则来阻止您的访问。在其他情况下，这些任务可能会被识别出来并联系您的 ISP，让您停止执行这些任务。请记住，您永远不是真正的匿名，聪明的托管服务商可以弄清楚您是谁、您访问的内容以及访问的时间。

如何做

那么如何成为一名优秀的爬虫呢？我们将在本章中介绍几个因素：

您可以从尊重 robots.txt 文件开始
不要抓取您在网站上找到的每个链接，而只抓取站点地图中给出的链接
限制你的要求，就像汉·索罗对楚巴卡说的那样：休闲飞行；或者，不要看起来像是您在重复获取 Crawling Casual 的内容
表明您的身份，以便网站认识您