第 2 章数据采集和提取

在本章中，我们将介绍：

有效抓取的关键方面是了解内容和数据如何存储在 Web 服务器上、识别要检索的数据以及了解工具如何支持这种提取。在本章中，我们将讨论网站结构和 DOM，介绍使用 lxml、XPath 和 CSS 解析和查询网站的技术。我们还将了解如何使用其他语言和不同编码类型（例如 Unicode）开发的网站。

归根结底，要想了解如何在 HTML 文档中查找和提取数据，就必须了解 HTML 页面的结构、其在 DOM 中的表现形式、在 DOM 中查询特定元素的过程，以及如何根据数据的表现形式指定要检索的元素。