0

我正在使用 Tesseract 进行文本识别。

我如何才能简单地识别文本之间的填充并创建具有相同填充的例如 pdf 或 .doc 文件?

假设源页面包含 3 列,其中包含一些文本(如新闻报纸)。我怎样才能识别这个文本与适当的填充和边距彼此和页面?

也许您可以建议执行相同或仅算法的示例或库?

4

0 回答 0