java - Python 的 NLTK 与相关的 Java 库？

Question

在我之前的 Java 项目中，我使用过 LingPipe、斯坦福的 NER、RiTa 和各种句子相似度库，这些项目专注于大量英文文本（大约 10,000 个文档）的文本（预处理）处理（索引、xml 标记、主题检测等）总和 > 1gb 的文本）。也许我是一个糟糕的 Java 程序员，但是当我切换到不同的语料库时，我发现自己输入了很多代码并使用了很多库。总的来说，我觉得可能有更好的工具来完成这项工作。

我想我的问题是，我会从切换到 Python 和 NLTK 进行信息检索/语言处理中受益吗？或者是否有足够的利弊让它变得非常主观？NLTK 是否足够直观，可以快速学习？

我会弄脏我的手，但在接下来的几天里我将无法使用个人机器。

score 12 · Accepted Answer

NLTK适用于自然语言处理。我已经将它用于我的数据挖掘项目。您可以训练自己的分析仪。学习曲线并不陡峭。

NLTK 拥有庞大的语料库来训练您的分析器。您还可以提供自己的数据集，例如，带有词性标签的期刊。

因为python对文本处理非常好，你可以试一试。另外，它有一个在线教程

请不要忘记使用 python 2.x 版本。尝试 python 2.6。NLTK 可能不适用于 python 3.x

score 7 · Accepted Answer

如果您已经了解 NLP 的基础知识，我认为 NLTK 应该很容易上手。它有一堆文档，两本书，我在streamhacker.com上写了很多文章和教程。如果您不想丢失 Java 包中的任何内容，理论上您可以使用 Jython（也许还有execnet）将它与 NLTK 结合起来。

您可能还想查看Pattern库。

java - Python 的 NLTK 与相关的 Java 库？

2 回答 2

Related

Reference