列表页智能解析算法的实现 本节中我们来动手实现列表页的提取算法。 本节目标 还是以图 14-13 所示的页面为例,用代码实现 14.4 节 “总结” 部分的提取思路。 由于部分算法比较复杂,本节介绍的算法是简化后的版本,更多细节处理可以参考本节最后的说明。 准备工作 上一节中我们已经将示例列表页的 HTML 代码保存下来了,文件名为 list.html。另外,本节主要还是用 XPath 解析页面和操作节点,所以需要用到 lxml库。 数据预处理 选取组节点 合并组节点 挑选最佳组合节点 提取标题和链接 整合 总结 本节中我们介绍了列表页提取算法的代码实现,同样无须任何规则,经过一定的算法和节点结构分析后便可以得到想要的新闻列表数据。 本节代码见 https://github.com/Gerapy/GerapyAutoExtractor 。 列表页智能解析算法简介 如何智能分辨列表页和详情页