0

我正在做一个项目,其中有内容为英语和西班牙语的 pdf,我只对其中的英语部分感兴趣并将其保存到数据库中。我正在使用 Apache PDF 框从中提取文本。如何我避免使用西班牙语内容并获取只有英文部分的文本。我尝试了一些库,如 Apache Tika 和https://code.google.com/p/language-detection/,但在某些情况下它们没有给出正确的结果。任何人都可以提供一些可靠的解决方案或任何其他方式来实现要求。提前致谢。

4

0 回答 0