第 2 章 数据采集和提取
在本章中,我们将介绍:
-
如何使用 Beautiful Soup 解析网站并导航 DOM
-
使用 Beautiful Soup 的 find 方法搜索 DOM
-
使用 XPath 和 lxml 查询 DOM
-
使用 XPath 和 CSS 选择器查询数据
-
使用 Scrapy 选择器
-
加载 Unicode / UTF-8 格式的数据
有效抓取的关键方面是了解内容和数据如何存储在 Web 服务器上、识别要检索的数据以及了解工具如何支持这种提取。 在本章中,我们将讨论网站结构和 DOM,介绍使用 lxml、XPath 和 CSS 解析和查询网站的技术。 我们还将了解如何使用其他语言和不同编码类型(例如 Unicode)开发的网站。
归根结底,要想了解如何在 HTML 文档中查找和提取数据,就必须了解 HTML 页面的结构、其在 DOM 中的表现形式、在 DOM 中查询特定元素的过程,以及如何根据数据的表现形式指定要检索的元素。