我是使用 Mallet 的新手。我通常使用WEKA进行分类,现在我正在尝试使用Mallet进行文本分类。在 Weka 中,有我们自己选择并制作 .arff 文件的属性(例如单词长度或前 n 个单词出现)。
我在http://mallet.cs.umass.edu/import.php中阅读了有关 Mallet 的输入格式,但我仍然感到困惑。我们如何在输入格式中分配属性?我们如何判断这个文件属于某个类?例如,一个文档属于“运动”类?
任何输入格式文件的例子都将不胜感激。
谢谢!
我是使用 Mallet 的新手。我通常使用WEKA进行分类,现在我正在尝试使用Mallet进行文本分类。在 Weka 中,有我们自己选择并制作 .arff 文件的属性(例如单词长度或前 n 个单词出现)。
我在http://mallet.cs.umass.edu/import.php中阅读了有关 Mallet 的输入格式,但我仍然感到困惑。我们如何在输入格式中分配属性?我们如何判断这个文件属于某个类?例如,一个文档属于“运动”类?
任何输入格式文件的例子都将不胜感激。
谢谢!
-我们如何判断这个文件属于某个类?:
每个类可以有一个文件夹,例如:C:/Corpus/Class1 C:/Corpus/Class2 C:/Corpus/Classn,每个文件夹包含属于该类的文档。
我们如何在输入格式中分配属性?
如果您想知道文件导入的选项,请转到:C:/mallet/bin,然后在那里:mallet import-dir --help,将显示导入文件的选项,例如--remove-stopwords , -- 克大小。
导入文件的示例代码:
bin/mallet import-dir --input C:/Corpus/* --output corpus.mallet --gram 大小 1,2 --preserve-case