2

我正在研究网页语言检测,并设法通过我开发的其他中间件检索页面的内容。因为没有标准化的内容位置。但是,我不知道如何检测我尝试使用 lang 和 xml:lang 标签的语言,但它们并不像我预期的那样高效,因为我看到某些网站的语言与标签中指定的语言不同,任何帮助将不胜感激?(环境java eclipse)

4

1 回答 1

1

这是 nlp 中的一个经典问题,并且给出了很好的预测。这篇文章看起来与这篇文章相似:链接并有一些很好的答案。我不熟悉那里提到的解决方案,但我确实将 Apache Tika 用于另一件事,它是一个很棒的开源。希望有帮助..

于 2016-04-25T15:45:28.883 回答