第 2 章 数据采集和提取

在本章中,我们将介绍:

  • 如何使用 Beautiful Soup 解析网站并导航 DOM

  • 使用 Beautiful Soup 的 find 方法搜索 DOM

  • 使用 XPath 和 lxml 查询 DOM

  • 使用 XPath 和 CSS 选择器查询数据

  • 使用 Scrapy 选择器

  • 加载 Unicode / UTF-8 格式的数据

有效抓取的关键方面是了解内容和数据如何存储在 Web 服务器上、识别要检索的数据以及了解工具如何支持这种提取。 在本章中,我们将讨论网站结构和 DOM,介绍使用 lxml、XPath 和 CSS 解析和查询网站的技术。 我们还将了解如何使用其他语言和不同编码类型(例如 Unicode)开发的网站。

归根结底,要想了解如何在 HTML 文档中查找和提取数据,就必须了解 HTML 页面的结构、其在 DOM 中的表现形式、在 DOM 中查询特定元素的过程,以及如何根据数据的表现形式指定要检索的元素。