使用OCR技术识别图形验证码

首先来看最简单的一种验证码——图形验证码,这种验证码最早出现,现在也依然很常见,一般由 4 位左右的字母或者数字组成。

例如在案例网站 https://captcha7.scrape.center/ 就可以看到类似的验证码,如图 8-1 所示。

这类验证码整体比较规整,没有过多的干扰线和干扰点,文字也没有大幅度的变形和旋转。对于这类验证码,可以使用 OCR 技术识别。

OCR技术

准备工作

保存验证码图片

识别测试

处理验证码

识别实战

总结

本节中我们了解了利用 tesserocr 识别图片验证码的过程,并将其应用于实战案例,实现了模拟登录。为了提高 tesserocr 的识别正确率,可以对验证码图片做去噪预处理。但利用 tesserocr 识别验证码的正确率整体并不高,下一节我们介绍其他方案。