Splash的使用

Splash 是一个 JavaScript 渲染服务,是一个含有 HTTP API 的轻量级浏览器,它还对接了 Python 中的 Twisted 库和 QT 库。利用它,同样可以爬取动态渲染的页面。

功能介绍

准备工作

实例引入

Splash Lua脚本

Splash对象的方法

调用 Splash 提供的 API

负载均衡配置

用 Splash 爬取页面时,如果爬取的数据量非常大,任务非常多,那么只用一个 Splash 服务就会使压力非常大,此时可以考虑搭建一个负载均衡器把压力分散到多个服务器上,相当于多台机器、多个服务共同参与任务的处理,可以减小单个 Splash 服务的压力。

由于篇幅原因,请移步 https://setup.scrape.center/splash-loadbalance 查看具体的配置方法。

总结

本节中,我们全面地了解了 Splash 的基本用法。有了 Splash,可以将 JavaScript 动态渲染的操作完全托管到—个服务器上,爬虫爬取的时候不需要再依赖 Selenium 等库,整个业务逻辑会更加轻量级。