0

我正在尝试查找 PDF 文档的语言并对其进行分类。我面临的主要问题是文档是扫描的PDF文档。没有字体或Unicode的线索。

所以Apache Tikka在这里没有多大帮助。

我尝试使用 tesseract 将文档从 PDF 转换为文本,然后将提取的文本传递给谷歌服务,它工作正常。但是存在三个问题:

  • Tesseract只能转换高质量的图像。

  • 它能够使用类似于英语的语言,如西班牙语、法语,但不能用于日语、中文等。

  • 文档文本是机密的,所有操作都应在其中完成。

    现在我正在寻找一个独立的语言检测组件,它适用于扫描的 PDF 文档。

4

0 回答 0