如何智能分辨列表页和详情页

在前面几节,我们介绍了详情页和列表页的内容提取方案,传入对应的 HTML 代码就能获取对应的提取结果了。但这里有个问题,就是在调用提取方法之前,需要先分辨哪种页面是列表页,哪种是详情页。

这自然而然引出了一个问题:能否用一个算法来区分列表页和详情页,直接根据算法返回的结果调用对应的提取方法,从而省掉很多麻烦?

本节目标

问题分析

数据标注

特征提取

模型实现

使用

总结

本节介绍了判断页面是列表页还是详情页的原理和代码实现,如需了解更多细节,可以参考 GerapyAutoExtractor 项目的源码。

至此,我们完成了详情页和列表页的内容提取以及详情页和列表页的分辨,有了这三类算法,就可以完成大部分新闻页面的智能解析了。