如何利用python识别验证码和车牌号腾讯云开发者社区

想要自动爬取网页内容,但是有些网站需要输入验证码,而验证码总是随机的,为了解决这个问题,首先需要自动获取验证码,然后将其下载下来,最后识别其中文字内容。

前面两步骤还是比较简单的,最后识别文字内容就比较麻烦了,查了很多资料,要用到ocr 文字识别技术,OCR 全称 Optical Character Recognition,是光学字符识别的意思,可以对图像上的文字进行识别。

第一种方案:pytesseract结合pillow库识别。 试了一下,对于非常简单的字符到可以识别,稍微有些干扰就不行了,准确度非常低。

第二种方案:利用opencv结合机器学习,先下载很多的验证码图片,然后将每个验证码中的字符切割出来,接着进行特征标注,训练数据等,效果看了一下,训练的好的准确率能到80左右,差的有些一半都不到,试了一下,效果不是很好,放弃了;还有些说用深度学习的方法,这个自己不是很懂,直接放弃了。

第三种方案:直接使用大公司开发好的OCR接口,试了一下百度的,一般文字清晰,准确率还是很高的,古诗,车牌啥的都没问题,只需要将数据上传到接口,返回json结构数据,使用还是非常简单的。

下面是记录的结果:

安装安装 tesseract ,pytesseract和pillow库。

tesseract并不是python中的,需要安装exe文件。我下载的是最后一个

记住自己安装的位置,我是安装在D盘。

安装成功后,启动命令行,查看版本,发现不行,原来是没有添加到path里面。

打开高级系统设置,添加进环境变量。

重新试一下,成功。

稍微带一点干扰就不准确了。

下面这种非常整齐的,没有背景干扰的还不错。

下面这种就更差了。

之前只是尝试过自然语言的机器学习,这种图片的并没有试过。首先需要自己有很多的验证码数据图片。

右键查看源代码,并没有找到图片链接。

不能直接找到链接的,肯定就是js动态获取的,所以就查看网络里面,找到了url链接。

THE END
0.车牌号OCR识别提交查询接口文档对接接入APIimg_file 图片文件(img_file、img_url二选一传递,小于1MB,支持jpg、png、bmp) file 否 img_url 图片url(img_file、img_url二选一传递,小于1MB,支持lists[] 全部车牌信息 array Number 车牌号 京GQQ777 string 6、响应状态码说明 code msg 0 未知错误 1 提交失败 2 提交成功 400 非法ip访问 401jvzquC41yy}/kqz{k0ipo8iqe1udt8qrp1gqk8Xwdoou0qyon
1.丰田牌GTM7200GANAVI小型轿车,车牌号蒙E63189标的名称:丰田牌GTM7200GA-NAVI小型轿车,车牌号蒙E63189 标的编号:3 标的类型:机动车 拍卖次数:0 拍品数量:1 计量单位:辆 拍卖机构名称:呼伦贝***公司 标的图片:https://cdnimg.***.net/GPAI5_Compress/2025-11/Cv8IODlbpLmFPIzfKo6r.jpghttps://cdnimg.***.net/GPAI5_Compress/2025-11/jvzquC41yy}/srfpnksb0lto1doe/>:355;:5=3jvor
2.python中使用Opencv进行车牌号检测——2018.10.24大大木瓜('../image/carnumber7.jpg',cv2.IMREAD_COLOR)#预处理图像rect,afterimg=find_license(img)#框出车牌号cv2.rectangle(afterimg,(rect[0],rect[1]),(rect[2],rect[3]),(0,255,0),2) cv2.imshow('afterimg',afterimg)#分割车牌与背景cutimg=cut_license(afterimg,rect) cv2.imshow('cutimg',cutjvzquC41yy}/ewgnqiy/exr1fq3ic{iyqtqjpp4r1;>3;::30jznn
3.车牌号OCR识别数链云【车牌号OCR识别-车牌号识别-车牌号图片】传入车牌照片,扫描识别车牌信息并返回,支持多个车牌号(支持新能源,澳门、台湾及部分国外车牌)。 图片要求:格式为 JPG(JPEG),BMP,PNG(小写也可以),宽和⾼大于100px且⼩于等于4000px,大小不能超过1MB 价格 ¥0 107 交易成功 商品规格 0.00元/10次 1.00元/10次 2.jvzquC41ocxlg}3enq{e0}jpegtu0lto1rxpf~hvu1868=5
4.车牌号码为鲁E7X550的五十铃牌汽车一辆司法拍卖 标的名称: 车牌号码为鲁E7X550的五十铃牌汽车一辆 标的编号: (略) 标的类型: 股票 拍卖次数: 1 拍品数量: 计量单位: 拍卖机构名称: 广(略) 标的图片: http://**-11/(略)345.jpg 拍卖开始时间: 2025年11月07日 结束时间: 2025年11月08日 jvzquC41uj4ckmhgpvks0lto0et0frvweqtugwy/5:>47;<6:/?/j}rn
5.OCR车牌识别车牌识别技术OCR图像识别车牌OCR识别技术支持多种类型车牌,快速准确。广泛应用于交通执法、停车登记、汽修美容会员识别等场景。立即购买 API 文档 在线体验 提示:可支持JPG、PNG、PDF、BMP等格式;图片大小不超过5M 或 识别结果 JSON数据 返回码 0 图片中车牌数 1 车牌明细 车牌号 粤BDT5583 车牌颜色 绿色 产品优势 多种类识别 支持对蓝jvzq<84gvqvmkj0eqs0r{tfwezt1unegpyfrufvg0jp