详情页智能解析算法的实现

本节中我们来动手实现详情页的提取算法。

本节目标

还是以 14.1 节开始时的页面为例,用算法提取其标题、正文和发布时间。

由于部分算法比较复杂,因此本节介绍的算法是简化后的版本,更多细节处理可以参考本节最后的说明。

准备工作

提取标题

提取正文

提取发布时间

整合

总结

本节中我们介绍了详情页提取算法的代码实现,不同的内容对应不同的实现思路。本节代码见 https://github·com/Gerapy/GerapyAutoExtractor