前言

本书内容

第 1 章，Scrapy 简介，介绍本书和 Scrapy，可以让你对该框架及本书剩余部分有一个明确的期望。

第 2 章，理解 HTML 和 XPath，旨在使爬虫初学者能够快速了解 Web 相关技术以及我们后续将会使用的技巧。

第 3 章，爬虫基础，介绍了如何安装 Scrapy，并爬取一个网站。我们通过向你展示每一个行动背后的方法和思路，逐步开发该示例。学习完本章之后，你将能够爬取大部分简单的网站。

第 4 章，从 Scrapy 到移动应用，展示了如何使用我们的爬虫填充数据库并输出给移动应用。本章过后，你将清晰地认识到爬虫在市场方面所带来的好处。

第 5 章，迅速的爬虫技巧，展示了更强大的爬虫功能，包括登录、更快速地抓取、消费 API 以及爬取 URL 列表。

第 6 章，部署到 Scrapinghub，展示了如何将爬虫部署到 Scrapinghub 的云服务器中，并享受其带来的可用性、易部署以及可控性等特性。

第 7 章，配置与管理，以组织良好的表现形式介绍了大量的 Scrapy 功能，这些功能可以通过 Scrapy 配置启用或调整。

第 8 章，Scrapy 编程，通过展示如何使用底层的 Twisted 引擎和 Scrapy 架构对其功能的各个方面进行扩展，将我们的知识带入一个全新的水平。

第 9 章，管道秘诀，提供了许多示例，在这里我们修改了 Scrapy 的一些功能，在不会造成性能退化的情况下，将数据插入到数据库（比如 MySQL、Elasticsearch 及 Redis）、接口 API，以及遗留应用中。

第 10 章，理解 Scrapy 性能，将帮助我们理解 Scrapy 的时间是如何花费的，以及我们需要怎么做来提升其性能。

第 11 章，使用 Scrapyd 与实时分析进行分布式爬取，这是本书最后一章，展示了如何在多台服务器中使用 Scrapyd 实现横向扩展，以及如何将爬取得到的数据提供给 Apache Spark 服务器以执行数据流分析。

本书尝试着去适应广泛的读者群体。它可能适合如下人群：