pdf - 从扫描的 PDF 文档中检测语言

翻译自：https://stackoverflow.com/questions/15636361 2013-03-26T11:48:53.953

1070 次

0

我正在尝试查找 PDF 文档的语言并对其进行分类。我面临的主要问题是文档是扫描的PDF文档。没有字体或Unicode的线索。

所以Apache Tikka在这里没有多大帮助。

我尝试使用 tesseract 将文档从 PDF 转换为文本，然后将提取的文本传递给谷歌服务，它工作正常。但是存在三个问题：

Tesseract只能转换高质量的图像。
它能够使用类似于英语的语言，如西班牙语、法语，但不能用于日语、中文等。
文档文本是机密的，所有操作都应在其中完成。

现在我正在寻找一个独立的语言检测组件，它适用于扫描的 PDF 文档。

0 回答 0