我需要开发一个分类器,它在上下文中给出一个单词的实例(例如'hard'),它从与 python NLTK 一起分发的 XML 格式的文件中确定它的哪个含义是预期的含义。我发现 Weka 适合这个,但是,我迷失了执行此操作所需的必要步骤。
我假设以下步骤:确定分类器要使用的相关特征,例如在实际单词“hard”之前考虑 1 个单词或 2 个单词。这可以通过 Weka 或例如 Java 来完成吗?如果通过Java有一个例子吗?因为我不知道如何为 Weka 做这件事。
然后我只是使用 Weka 来获取结果并在文件上进行训练和测试?