详情页智能解析算法简介

本节中我们来了解一下详情页提取算法的基本思路,主要包括如下内容。

  • 我们定义的详情页是指怎样的页面。

  • 详情页中的哪些信息是需要我们提取的关键信息。

  • 介绍标题、正文、发布时间的提取算法。

怎样的页面属于详情页

提取内容

准备工作

提取标题

提取正文

提取发布时间

总结

本节中我们介绍了详情页的 3 个关键信息——标题、正文、发布时间的提取思路,了解了基本原理之后,我们在 14.3 节会用代码实现其中的一些解析算法。