我尝试在这里和那里搜索它,但找不到任何好的解决方案,所以尽管咨询了 nlp 专家。我正在开发一个文本相似性查找应用程序,我需要将成千上万的文档(每个文档大约 1000 个单词)相互匹配。对于 nlp 部分,我最好的选择是 NLTK(看到它的能力和 python 的算法友好性。但是现在当词性标记本身花费这么多时间时,我相信,nltk 可能不是最合适的。Java 或 C 不会伤害了我,因此任何解决方案都对我有用。请注意,我已经开始从 mysql 迁移到 hbase,以便在如此大量的数据上更自由地工作。但是仍然存在问题,如何执行算法。Mahout 可能是一个选择,但这也是用于机器学习,而不是专用于 nlp(可能对语音识别有好处)。还有什么可用的选项。总而言之,我需要高性能的 nlp,(从高性能机器学习降级)。(我有点倾向于 Mahout,看未来的用法)。
这是关于缩放 nltk。