第 8 章 验证码的识别

各类网站采用了各种各样的措施反爬虫,其中一个便是验证码。随着技术的发展,验证码的花样越来越多,由最初只是几个数字组合而成的简单图形,发展到加入了英文字母和混淆曲线,还有一些网站使用中文字符验证码,这无疑使识别变得愈发困难。

12306 验证码的出现使行为验证码开始发展,相信用过 12306 的用户多少都为它的验证码头疼过,需要识别文字,然后点击与文字描述相符的图片,只有所点的图片完全正确,才能通过验证。随着技术的发展,这种交互式验证码越来越多,如滑动验证码需要将滑块拖动到指定位置才能完成验证,点选验证码需要点击正确的图形或文字才能通过验证。

验证码变复杂的同时,爬虫的工作也变得越发艰难,有时候必须通过验证才可以访问页面。

本章统一讲解验证码的识别问题,涉及的验证码有图形验证码、滑动验证码、点选验证码和手机验证码等,这些验证码的识别方式和思路各有不同,有的直接使用图像处理库就能完成,有的则需要借助深度学习技术完成,还有的要借助一些工具和平台完成。虽说技术各有不同,但了解这些验证码的识别方式之后,我们就可以举一反三,使用类似的方法识别其他类型的验证码。