前言
本书内容
第 1 章,Scrapy 简介,介绍本书和 Scrapy,可以让你对该框架及本书剩余部分有一个明确的期望。
第 2 章,理解 HTML 和 XPath,旨在使爬虫初学者能够快速了解 Web 相关技术以及我们后续将会使用的技巧。
第 3 章,爬虫基础,介绍了如何安装 Scrapy,并爬取一个网站。我们通过向你展示每一个行动背后的方法和思路,逐步开发该示例。学习完本章之后,你将能够爬取大部分简单的网站。
第 4 章,从 Scrapy 到移动应用,展示了如何使用我们的爬虫填充数据库并输出给移动应用。本章过后,你将清晰地认识到爬虫在市场方面所带来的好处。
第 5 章,迅速的爬虫技巧,展示了更强大的爬虫功能,包括登录、更快速地抓取、消费 API 以及爬取 URL 列表。
第 6 章,部署到 Scrapinghub,展示了如何将爬虫部署到 Scrapinghub 的云服务器中,并享受其带来的可用性、易部署以及可控性等特性。
第 7 章,配置与管理,以组织良好的表现形式介绍了大量的 Scrapy 功能,这些功能可以通过 Scrapy 配置启用或调整。
第 8 章,Scrapy 编程,通过展示如何使用底层的 Twisted 引擎和 Scrapy 架构对其功能的各个方面进行扩展,将我们的知识带入一个全新的水平。
第 9 章,管道秘诀,提供了许多示例,在这里我们修改了 Scrapy 的一些功能,在不会造成性能退化的情况下,将数据插入到数据库(比如 MySQL、Elasticsearch 及 Redis)、接口 API,以及遗留应用中。
第 10 章,理解 Scrapy 性能,将帮助我们理解 Scrapy 的时间是如何花费的,以及我们需要怎么做来提升其性能。
第 11 章,使用 Scrapyd 与实时分析进行分布式爬取,这是本书最后一章,展示了如何在多台服务器中使用 Scrapyd 实现横向扩展,以及如何将爬取得到的数据提供给 Apache Spark 服务器以执行数据流分析。