我是 Mallet 的新手,我用它来制作 MaxEnt 模型。我想要实现的是我想对某些类别的文本进行分类。(使用类别的样本名称)我的训练数据位于一个名为的文件夹中,fruits_training_data
其中有 4 个文件:
apples.txt
bananas.txt
oranges.txt
mangoes.txt
首先,我使用此命令将这些数据导入到 mallet 中。
bin\mallet import-dir --input fruits_training_data --output fruits_training.mallet
我还在单独的文件夹和单独的文件中测试了每个类别的数据。它的层次结构也是一样的。文件夹名称是fruits_testing_data
。它与培训文件夹具有相同的文件名。我对测试数据做了同样的事情。
bin\mallet import-dir --input fruits_testing_data --output fruits_testing.mallet
然后我使用这个命令制作 MaxEnt 模型。
bin\mallet train-classifier --training-file fruits_training.mallet --testing-file fruits_testing.mallet --trainer MaxEnt --report test:accuracy
这给了我一个错误:
训练和测试字母不匹配!在 cc.mallet.classify.tui.Vectors2Classify.main(Vectors2Classify.java:27 5)
我搜索了这个,直到现在才找到任何帮助。有人可以帮我弄清楚我在哪一步做错了吗?会感谢你的。