在我之前的 Java 项目中,我使用过 LingPipe、斯坦福的 NER、RiTa 和各种句子相似度库,这些项目专注于大量英文文本(大约 10,000 个文档)的文本(预处理)处理(索引、xml 标记、主题检测等)总和 > 1gb 的文本)。也许我是一个糟糕的 Java 程序员,但是当我切换到不同的语料库时,我发现自己输入了很多代码并使用了很多库。总的来说,我觉得可能有更好的工具来完成这项工作。
我想我的问题是,我会从切换到 Python 和 NLTK 进行信息检索/语言处理中受益吗?或者是否有足够的利弊让它变得非常主观?NLTK 是否足够直观,可以快速学习?
我会弄脏我的手,但在接下来的几天里我将无法使用个人机器。