Beautiful Soup的使用

第 2 章介绍了正则表达式的相关用法,只是一旦正则表达式写得有问题,得到的结果就可能不是我们想要的了。而且每一个网页都有一定的特殊结构和层级关系,很多节点都用 id 或 class 作区分,所以借助它们的结构和属性来提取不也可以吗?

本节我们就介绍一个强大的解析工具——BeautifulSoup,其借助网页的结构和属性等特性来解析网页。有了它,我们不需要写复杂的正则表达式,只需要简单的几个语句,就可以完成网页中某个元素的提取。

废话不多说,接下来就感受一下 Beautiful Soup 的强大之处吧。

Beautiful Soup的简介

解析器

准备工作

基本使用

节点选择器

提取信息

关联选择

方法选择器

CSS 选择器

总结

到此,Beautiful Soup 的介绍基本就结束了,最后做一下简单的总结。

  • 推荐使用 LXML 解析库,必要时使用 html.parser。

  • 节点选择器筛选功能弱,但是速度快。

  • 建议使用 find、find_all 方法查询匹配的单个结果或者多个结果。

  • 如果对 CSS 选择器熟悉,则可以使用 select 选择法。