字体反爬案例分析与爬取实战

本节再分析一个反爬案例,该案例将真实的数据隐藏到字体文件里,使我们即使获取了页面源代码,也没法直接提取数据的真实值。

案例介绍

案例网站为 https://antispider4.scrape.center/ ,打开之后看着和之前的电影网站没什么不同。我们按照 7.7 节类似的分析逻辑来爬取一些信息,例如电影标题、类别、评分等,代码实现如下:

这里先用 Selenium 打开案例网站,等待所有电影加载出来,然后获取页面源代码,并通过 pyquery 提取和解析每一个电影的信息,得到名称、类别和评分,之后输出,运行结果如下:

案例分析

实战

总结

本节介绍的也是一个特殊案例,通过这个案例我们知道,即使获取了关键的源代码,有些内容也还是提取不到,还是需要通过观察一些规律才能提取,平时遇到这种情况也应该多加小心。