第 9 章 创建简单的数据 API
在本章中,我们将介绍:
-
使用 Flask-RESTful 创建 REST API
-
将 REST API 与抓取代码集成
-
添加 API 以查找职位列表的技能
-
将数据作为抓取请求的结果存储在 Elasticsearch 中
-
在抓取之前检查 Elasticsearch 的列表
现在,我们对抓取的学习已经达到了一个令人兴奋的转折点。 从现在开始,我们将学习如何使用多个 API、微服务和容器工具将抓取工具制作为服务,所有这些都将允许抓取工具在本地或云端运行,并通过标准化提供对抓取工具的访问 REST API.60;
我们将在本章中开始这个新的旅程,使用 Flask-RESTful 创建一个简单的 REST API,我们最终将使用它向服务发出请求以按需抓取页面。 我们将把这个 API 连接到一个在 Python 模块中实现的抓取函数,该函数重用抓取 StackOverflow 作业的概念,如第 7 章 “文本整理和分析” 中所述。
最后的几个示例将重点介绍使用 Elasticsearch 作为这些结果的缓存,存储我们从抓取工具检索到的文档,然后首先在缓存中查找它们。 我们将在后面的第 11 章 “使抓取工具成为真正的服务” 中研究 ElasticCache 的更复杂的用途,例如执行具有给定技能集的工作搜索。