我正在尝试在 Python 中使用 Tesseract-OCR 和 OpenCV 检测图像的文本部分(jpg 文件)。图像的文本部分是土耳其语,因此我使用的是 Tesseract-OCR 文件中的“土耳其语训练数据 (tur)”。在使用 tesseract 之前,我已经应用了膨胀和腐蚀来消除噪音。
问题是,即使可以检测到某些特定区域的字符,但检测大多不成功,无法检测到土耳其语字符。你知道任何方法或者你有什么建议来获得更多的成功。以下是我的代码:
import pytesseract
from PIL import Image
import cv2
img= cv2.imread('C:\Users\gulsa\Desktop\Tesseract-OCR\alm98_2.jpg')
img = Image.open('alm98_2.jpg')
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-
OCR/tesseract'
tex = pytesseract.image_to_string(Image.open('alm98_2.jpg'),lang='tur')
print(tex)
先感谢您!