列表页智能解析算法简介

我们在 14.2 节和 14.3 节中了解了提取详情页中标题、正文和发布时间的过程,并用代码实现了对应算法。除了智能解析详情页外,我们还需要考虑到列表页。

本节中我们来了解一下列表页的智能解析算法,主要包括如下内容。

  • 我们定义的列表页是指怎样的页面。

  • 列表页的哪些信息是我们需要提取的°

  • 介绍列表页的提取算法。

怎样的页面属于列表页

提取内容

准备工作

提取思路

总结

经过本节的学习,我们可以自动化地找出页面中所有的标题和链接信息了。总体来说,提取思路分为下面几步。

  1. 根据成员节点的特征(同类型且连续)找出所有符合条件的候选组节点。

  2. 根据规定的组节点特征(例如字数、成员节点数量等)排除冗余组节点。

  3. 合并同类型的组节点,总的组节点数量减少。

  4. 计算置信度分数,从现有组节点中选出最佳组节点。

  5. 从最佳组节点的所有成员节点内提取标题和链接。

这个思路虽然不一定是最优的列表页提取方案,但用来提取大部分列表页的内容应该不是问题。