我正在使用 Tesseract 进行文本识别。
我如何才能简单地识别文本之间的填充并创建具有相同填充的例如 pdf 或 .doc 文件?
假设源页面包含 3 列,其中包含一些文本(如新闻报纸)。我怎样才能识别这个文本与适当的填充和边距彼此和页面?
也许您可以建议执行相同或仅算法的示例或库?
我正在使用 Tesseract 进行文本识别。
我如何才能简单地识别文本之间的填充并创建具有相同填充的例如 pdf 或 .doc 文件?
假设源页面包含 3 列,其中包含一些文本(如新闻报纸)。我怎样才能识别这个文本与适当的填充和边距彼此和页面?
也许您可以建议执行相同或仅算法的示例或库?