爱气象,爱气象家园! 

气象家园

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

搜索
查看: 16382|回复: 0

[经验总结] 破解验证码---Python文字识别模块tesseract的评测

[复制链接]

新浪微博达人勋

发表于 2021-1-15 17:18:16 | 显示全部楼层 |阅读模式

登录后查看更多精彩内容~

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博登陆

x
一、需求缘起

有些网站登录时要输入验证码,selenium是无法识别验证码的,爬虫就无法进行下去,
于是我想使用文字识别工具来破解。

二、安装步骤

1、下载  tesseract-ocr安装包和中文语言包.zip

2、下载后,双击tesseract-ocr-setup-3.02.02.exe安装,记下安装目录,我的是
C:\Program Files (x86)\Tesseract-OCR\tesseract.exe

3、将C:\Program Files (x86)\Tesseract-OCR加入系统变量

4、pip install pytesseract

5、在pytesseract包的pytesseract.py文件里,
将tesseract_cmd = 'tesseract'
改为tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'

6、将压缩包里的<中文语言包>的chi_sim.traineddata文件拷贝入
C:\Program Files (x86)\Tesseract-OCR\tessdata

三、测试代码


数字.jpg 中文.jpg

from PIL import Image
import pytesseract

img='数字.jpg'
image = Image.open(img)
text=pytesseract.image_to_string(image)#默认英文识别
print('图片内容:',text)

img='中文.jpg'
image = Image.open(img)
text=pytesseract.image_to_string(image ,lang='chi_sim')#中文识别
print('图片内容:\n',text)

结果:

图片内容: 7364

图片内容:
春雨惊春聂青谷夫
夏满芒夏署乔目连
禾)(处露禾)(寒霜降
警雪雪警寒又寒

结论:

试了好几张图,功能很弱,我要登录的那个网站的数字验证码就识别不了,
文字工整,背景干净的话,数字识别好些,汉字识别依旧不准
看来还得试试其他的,如cnocr包,或用大厂的OCR接口






密码修改失败请联系微信:mofangbao
您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

Copyright ©2011-2014 bbs.06climate.com All Rights Reserved.  Powered by Discuz! (京ICP-10201084)

本站信息均由会员发表,不代表气象家园立场,禁止在本站发表与国家法律相抵触言论

快速回复 返回顶部 返回列表