java - Java 从大字符串中检测内容语言

翻译自：https://stackoverflow.com/questions/31935250 2015-08-11T07:04:06.510

1388 次

我正在做一个项目，其中有内容为英语和西班牙语的 pdf，我只对其中的英语部分感兴趣并将其保存到数据库中。我正在使用 Apache PDF 框从中提取文本。如何我避免使用西班牙语内容并获取只有英文部分的文本。我尝试了一些库，如 Apache Tika 和https://code.google.com/p/language-detection/，但在某些情况下它们没有给出正确的结果。任何人都可以提供一些可靠的解决方案或任何其他方式来实现要求。提前致谢。

java - Java 从大字符串中检测内容语言

0 回答 0

Related

Reference