列表页智能解析算法的实现

本节中我们来动手实现列表页的提取算法。

本节目标

还是以图 14-13 所示的页面为例,用代码实现 14.4 节 “总结” 部分的提取思路。

由于部分算法比较复杂,本节介绍的算法是简化后的版本,更多细节处理可以参考本节最后的说明。

准备工作

上一节中我们已经将示例列表页的 HTML 代码保存下来了,文件名为 list.html。另外,本节主要还是用 XPath 解析页面和操作节点,所以需要用到 lxml库。

数据预处理

选取组节点

合并组节点

挑选最佳组合节点

提取标题和链接

整合

总结

本节中我们介绍了列表页提取算法的代码实现,同样无须任何规则,经过一定的算法和节点结构分析后便可以得到想要的新闻列表数据。