python - python tesseract获取没有OCR的行数

Question

我试图在不进行 OCR 的情况下确定文本行数。我想绕过 OCR 并在用户处理太多文本行时给他们一个错误（这将花费太长时间，而且这不是应该给出的那种输入）。理想情况下，我希望在 python 中执行此操作，但如果有任何 c++ 示例可以执行此操作，我可能会对其进行调整。

以下是我可以使用的 API 函数：http: //zdenop.github.io/tesseract-doc/group___advanced_a_p_i.html

我可以使用这些函数，但我不知道如何在 python 中处理 BLOCK_LIST、ETEXT_DESC 或 Boxa 对象，除非将它们从一个 API 调用提供给另一个。

任何帮助将不胜感激！

score 0 · Accepted Answer

这可能不是最好的方法，但它只需要几秒钟就可以工作，并且让我知道什么时候应该取消 OCR，因为基于找到的符号数量比预期的执行时间长，假设我将 OCR 操作放在它自己的线程中可以被杀死。您还可以找到行数 (RIL_TEXTLINE)，但如果您有多个列，结果会得到更多行。

import tesseract
import cv2.cv as cv 

api = tesseract.TessBaseAPI()
api.Init('.','eng',tesseract.OEM_DEFAULT)
api.SetPageSegMode(tesseract.PSM_AUTO_OSD)

# Load image
img_data = cv2.imread('file.jpg')
image = cv.CreateImageHeader((width1,height1), cv.IPL_DEPTH_8U, channel1) 
cv.SetData(image, img_data.tostring(),img_data.dtype.itemsize * channel1 * (width1))
tesseract.SetCvImage(image,api)

# Check number of chars
chars_iterator = api.AnalyseLayout()
num_chars = 1
while chars_iterator.Next(tesseract.RIL_SYMBOL) is True: num_chars += 1

# Break of there are too many chars
if num_chars > 1000:
    print "Too many chars!"
    break

# Reset api to delete previous layout iterator
api.Clear()
tesseract.SetCvImage(image,api)

# Do real OCR, and put this in its own thread if you want to kill it when it takes too long
result_xml = api.GetHOCRText(1)
print api.GetUTF8Text()

python - python tesseract获取没有OCR的行数

1 回答 1

Related

Reference