
需要 pillow 和 pytesseract 这两个库,pip install 安装就好了。
pip install pillow -i http://pypi.douban.com/simple --trusted-host pypi.douban.compip install pytesseract -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
安装好Tesseract-OCR.exe
pytesseract 库的配置:搜索找到pytesseract.py,打开该.py文件,找到 tesseract_cmd,改变它的值为刚才安装 tesseract.exe 的路径。
往期阅读>>>
Python 20 个文本分析的库:效率提升 10 倍的秘密武器
Python 自动化管理Jenkins的15个实用脚本,提升效率
App2Docker:如何无需编写Dockerfile也可以创建容器镜像
Python 自动化识别Nginx配置并导出为excel文件,提升Nginx管理效率
识别验证码,需要先对图像进行预处理,去除会影响识别准确度的线条或噪点,提高识别准确度。
实例1
importcv2ascvimportpytesseractfromPILimportImagedefrecognize_text(image):# 边缘保留滤波 去噪dst = cv.pyrMeanShiftFiltering(image, sp=10, sr=150)# 灰度图像gray = cv.cvtColor(dst, cv.COLOR_BGR2GRAY)# 二值化ret, binary = cv.threshold(gray, 0, 255, cv.THRESH_BINARY_INV|cv.THRESH_OTSU)# 形态学操作 腐蚀 膨胀erode = cv.erode(binary, None, iterations=2)dilate = cv.dilate(erode, None, iterations=1)cv.imshow('dilate', dilate)# 逻辑运算 让背景为白色 字体为黑 便于识别cv.bitwise_not(dilate, dilate)cv.imshow('binary-image', dilate)# 识别test_message = Image.fromarray(dilate)text = pytesseract.image_to_string(test_message)print(f'识别结果:{text}')src = cv.imread(r'./test/044.png')cv.imshow('input image', src)recognize_text(src)cv.waitKey(0)cv.destroyAllWindows()
运行效果如下:
识别结果:3n3DProcess finished with exit code 0
实例2
importcv2ascvimportpytesseractfromPILimportImagedefrecognize_text(image):# 边缘保留滤波 去噪blur =cv.pyrMeanShiftFiltering(image, sp=8, sr=60)cv.imshow('dst', blur)# 灰度图像gray = cv.cvtColor(blur, cv.COLOR_BGR2GRAY)# 二值化ret, binary = cv.threshold(gray, 0, 255, cv.THRESH_BINARY_INV|cv.THRESH_OTSU)print(f'二值化自适应阈值:{ret}')cv.imshow('binary', binary)# 形态学操作 获取结构元素 开操作kernel = cv.getStructuringElement(cv.MORPH_RECT, (3, 2))bin1 = cv.morphologyEx(binary, cv.MORPH_OPEN, kernel)cv.imshow('bin1', bin1)kernel = cv.getStructuringElement(cv.MORPH_OPEN, (2, 3))bin2 = cv.morphologyEx(bin1, cv.MORPH_OPEN, kernel)cv.imshow('bin2', bin2)# 逻辑运算 让背景为白色 字体为黑 便于识别cv.bitwise_not(bin2, bin2)cv.imshow('binary-image', bin2)# 识别test_message = Image.fromarray(bin2)text = pytesseract.image_to_string(test_message)print(f'识别结果:{text}')src = cv.imread(r'./test/045.png')cv.imshow('input image', src)recognize_text(src)cv.waitKey(0)cv.destroyAllWindows()
运行效果如下:
二值化自适应阈值:181.0识别结果:8A62N1Process finished with exit code 0
实例3
importcv2ascvimportpytesseractfromPILimportImagedefrecognize_text(image):# 边缘保留滤波 去噪blur = cv.pyrMeanShiftFiltering(image, sp=8, sr=60)cv.imshow('dst', blur)# 灰度图像gray = cv.cvtColor(blur, cv.COLOR_BGR2GRAY)# 二值化 设置阈值 自适应阈值的话 黄色的4会提取不出来ret, binary = cv.threshold(gray, 185, 255, cv.THRESH_BINARY_INV)print(f'二值化设置的阈值:{ret}')cv.imshow('binary', binary)# 逻辑运算 让背景为白色 字体为黑 便于识别cv.bitwise_not(binary, binary)cv.imshow('bg_image', binary)# 识别test_message = Image.fromarray(binary)text = pytesseract.image_to_string(test_message)print(f'识别结果:{text}')src = cv.imread(r'./test/045.jpg')cv.imshow('input image', src)recognize_text(src)cv.waitKey(0)cv.destroyAllWindows()
运行效果如下:
二值化设置的阈值:185.0识别结果:7364Process finished with exit code 0
示例4:处理带有简单干扰点的验证码此示例适用于背景有散落噪点,但字符相对清晰的验证码。核心是使用中值滤波去除椒盐噪声,并结合形态学开运算消除小点。
importcv2importpytesseractfromPILimportImagedefrecognize_text_with_dots(image_path):# 读取图片img = cv2.imread(image_path)# 1. 中值滤波,有效去除孤立的噪点(如椒盐噪声)median = cv2.medianBlur(img, 3)# 2. 转换为灰度图gray = cv2.cvtColor(median, cv2.COLOR_BGR2GRAY)# 3. 二值化(使用Otsu自动阈值)_, binary = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY_INV+cv2.THRESH_OTSU)# 4. 形态学开运算:先腐蚀后膨胀,去除细小白色噪点kernel = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (2, 2))opened = cv2.morphologyEx(binary, cv2.MORPH_OPEN, kernel)# 5. 将图像反相(白底黑字)以满足Tesseract的默认期望result = cv2.bitwise_not(opened)# 6. 调用Tesseract OCR识别,指定配置为单个统一文本块text = pytesseract.image_to_string(Image.fromarray(result), config='--psm 8')returntext.strip()# 使用示例captcha_code = recognize_text_with_dots('./test/captcha_with_noise.png')print(f"识别结果: {captcha_code}")
示例5:处理字符粘连的验证码当验证码字符之间粘连严重时,可以尝试使用腐蚀操作进行轻微分离,但需谨慎控制迭代次数,避免字符断裂。
importcv2importpytesseractimportnumpyasnpfromPILimportImagedefrecognize_text_sticky(image_path):img = cv2.imread(image_path)# 预处理:去噪、灰度化、二值化(步骤同示例4,此处省略详细代码)gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)_, binary_inv = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY_INV+cv2.THRESH_OTSU)# 关键步骤:轻微腐蚀以尝试分离粘连字符# 使用一个细长的水平核,旨在切断水平方向的粘连kernel_horizontal = np.array([[0, 0, 0, 0, 0], [1, 1, 1, 1, 1], [0, 0, 0, 0, 0]], dtype=np.uint8)# 迭代次数为1,防止过度腐蚀eroded = cv2.erode(binary_inv, kernel_horizontal, iterations=1)# 后续可以再进行一次膨胀以修复字符因腐蚀变细的部分kernel_solid = cv2.getStructuringElement(cv2.MORPH_RECT, (2, 2))dilated = cv2.dilate(eroded, kernel_solid, iterations=1)final_image = cv2.bitwise_not(dilated)text = pytesseract.image_to_string(Image.fromarray(final_image), config='--psm 8')returntext.strip()# 使用示例captcha_code = recognize_text_sticky('./test/sticky_captcha.png')print(f"识别结果: {captcha_code}")
示例6:使用轮廓分析辅助定位与识别(适用于验证码在图片中位置不固定)此方法先找到验证码文本的轮廓区域,将其裁剪出来再进行识别,可以排除图片中其他区域的干扰。
importcv2importpytesseractfromPILimportImagedefrecognize_text_by_contour(image_path):img = cv2.imread(image_path)gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)# 二值化,获取黑白图_, binary = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY_INV)# 查找轮廓contours, _ = cv2.findContours(binary, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)# 假设最大的轮廓是验证码文本区域(可根据实际情况调整逻辑)ifcontours:largest_contour = max(contours, key=cv2.contourArea)x, y, w, h = cv2.boundingRect(largest_contour)# 在原图上裁剪出验证码区域roi = img[y:y+h, x:x+w]# 对裁剪区域进行常规预处理和识别roi_gray = cv2.cvtColor(roi, cv2.COLOR_BGR2GRAY)_, roi_binary = cv2.threshold(roi_gray, 0, 255, cv2.THRESH_BINARY_INV+cv2.THRESH_OTSU)roi_binary = cv2.bitwise_not(roi_binary)text = pytesseract.image_to_string(Image.fromarray(roi_binary), config='--psm 8')returntext.strip()else:return"未找到有效轮廓"# 使用示例captcha_code = recognize_text_by_contour('./test/captcha_in_scene.png')print(f"识别结果: {captcha_code}")
通过Python结合OpenCV和Tesseract-OCR,我们可以构建一个本地化的、可定制的验证码识别工具。其核心优势在于预处理流程的完全可控性,开发者可以根据具体的验证码特征调整算法参数。
核心要点总结:
环境配置是关键:成功识别的先决条件是正确安装pillow、pytesseract库以及Tesseract-OCR可执行程序,并需要在pytesseract.py中配置好引擎路径。
图像预处理至关重要:直接识别原始验证码图片效果往往不佳。必须通过边缘保留滤波去噪、灰度转换、二值化、形态学操作(腐蚀、膨胀)等一系列预处理步骤来净化图像,突出文本特征。
预处理方法需灵活调整:针对不同类型的验证码(如不同噪点、颜色、扭曲程度),需要采用不同的预处理策略。例如,实例3中因为固定阈值更能有效提取黄色数字,而放弃了自适应性阈值。
技术栈组合:解决方案的核心是OpenCV(负责图像处理)与pytesseract(负责调用OCR引擎)的协同工作。
局限性:
对于高级验证码无效:如极验、行为验证等需要鼠标轨迹分析的动态验证码,此静态图像识别方法完全失效。
识别率依赖预处理:面对高度扭曲、严重粘连或背景复杂的验证码,即使经过精细预处理,识别率也可能不高。
需要持续维护:如果目标网站的验证码样式更新,预处理策略可能需要重新调整。
因此,此技术方案更适用于处理样式相对固定、复杂度不高的传统图形验证码。对于更复杂或商业级的场景,可能需要考虑接入专业的云OCR API服务,或者采用深度学习模型进行端到端的训练与识别。
