计划定时爬取

现在当你听到计划定时爬取任务只需要单击几下鼠标的话,应该不会再感到惊讶了。

该过程如图6.7所示。我们只需要前往 Periodic Jobs 区域(1),单击 Add(2),设置爬虫(3),调整爬取频率(4),最后单击 Save 即可(5)。

image 2024 05 08 22 42 16 607
Figure 1. 图6.7 计划定时爬取

本章小结

在本章中,我们拥有了第一次部署 Scrapy 项目的经验,这里我们使用了 Scrapinghub 将其部署到云端。我们计划运行任务,收集上千个 item,并且可以通过使用 API 的方式非常容易地浏览和抽取它们。在接下来的章节中, 我们将会继续提高知识水平,为自己创建一个类似 Scrapinghub 的小型服务器。首先,我们会在下一章中学习配置和管理。