页面智能解析简介

简言之,页面的智能解析就是利用算法从页面的 HTML 代码中提取想要的内容,算法会自动计算出目标内容在代码中的位置并将它们提取出来。

实例引入

页面的智能解析

业界进展

Diffbot

总结

本节介绍了智能解析的原理和 Diffbot 的用法。通过 Diffbot 的案例,我们大体了解了智能解析算法可以提取什么信息以及提取正确率如何。但 Diffbot 总归是一个商业化的 API,我们不能只知其然,不知其所以然。虽然很多时候只能靠调用商用 API 的方式智能解析页面,但一方面是费用高昂,另一方面是如果出了问题,没办法做针对性的处理和优化,我们显得非常被动。

如果我们能了解智能解析算法的核心原理和实现,很多问题就迎刃而解了。

之后几节我们会针对资讯类网站,介绍智能解析算法的一些原理和实现流程。对于大部分资讯类网站来说,除去一些特殊的页面(如登录页面、注册页面等),剩下的页面可以分为两大类——列表页和详情页,前者提供多个详情页的索引导航信息,后者则包含具体的内容。我们会针对这两类页面介绍如下知识点。

  • 详情页中文章标题、正文、发布时间的提取算法和实现。

  • 列表页中链接列表的提取算法和实现。

  • 如何判断一个页面是详情页还是列表页。