1

我是使用 Mallet 的新手。我通常使用WEKA进行分类,现在我正在尝试使用Mallet进行文本分类。在 Weka 中,有我们自己选择并制作 .arff 文件的属性(例如单词长度或前 n 个单词出现)。

我在http://mallet.cs.umass.edu/import.php中阅读了有关 Mallet 的输入格式,但我仍然感到困惑。我们如何在输入格式中分配属性?我们如何判断这个文件属于某个类?例如,一个文档属于“运动”类?

任何输入格式文件的例子都将不胜感激。

谢谢!

4

1 回答 1

4

-我们如何判断这个文件属于某个类?:

每个类可以有一个文件夹,例如:C:/Corpus/Class1 C:/Corpus/Class2 C:/Corpus/Classn,每个文件夹包含属于该类的文档。

我们如何在输入格式中分配属性?

如果您想知道文件导入的选项,请转到:C:/mallet/bin,然后在那里:mallet import-dir --help,将显示导入文件的选项,例如--remove-stopwords , -- 克大小。

导入文件的示例代码:

bin/mallet import-dir --input C:/Corpus/* --output corpus.mallet --gram 大小 1,2 --preserve-case

于 2015-07-14T22:00:29.847 回答