如何智能分辨列表页和详情页
在前面几节,我们介绍了详情页和列表页的内容提取方案,传入对应的 HTML 代码就能获取对应的提取结果了。但这里有个问题,就是在调用提取方法之前,需要先分辨哪种页面是列表页,哪种是详情页。
这自然而然引出了一个问题:能否用一个算法来区分列表页和详情页,直接根据算法返回的结果调用对应的提取方法,从而省掉很多麻烦?
在前面几节,我们介绍了详情页和列表页的内容提取方案,传入对应的 HTML 代码就能获取对应的提取结果了。但这里有个问题,就是在调用提取方法之前,需要先分辨哪种页面是列表页,哪种是详情页。
这自然而然引出了一个问题:能否用一个算法来区分列表页和详情页,直接根据算法返回的结果调用对应的提取方法,从而省掉很多麻烦?