我正在尝试获取一组评论,并将它们转换为 ARFF 格式以与 WEKA 一起使用。不幸的是,要么我完全误解了格式的工作原理,要么我必须为所有可能的单词设置一个属性,然后是一个存在指示符。有谁知道更好的方法,或者理想情况下有一个示例 ARFF 文件?
问问题
1829 次
2 回答
4
如果您将评论存储在纯文本文件和不同的文件夹(在您的情况下为正面和负面),您可以使用 TextDirectoryLoader。
您可以在 Weka 的 KnowledgeFlow 应用程序中或从命令行中找到它。更多信息在这里:http ://weka.wikispaces.com/ARFF+files+from+Text+Collections
于 2011-05-29T09:35:32.890 回答
3
花了一些时间来解决这个问题,但是有了这个 input.arff:
@relation text_files
@attribute review string
@attribute sentiment {0, 1}
@data
"this is some text", 1
"this is some more text", 1
"different stuff", 0
这个命令:
java -classpath "C:\\Program Files\\Weka-3-6\\weka.jar" weka.filters.unsupervised.attribute.StringToWordVector -i input.arff -o output.arff
产生以下内容:
@relation 'text_files-weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullStemmer-M1-tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"'
@attribute sentiment {0,1}
@attribute different numeric
@attribute is numeric
@attribute more numeric
@attribute some numeric
@attribute stuff numeric
@attribute text numeric
@attribute this numeric
@data
{0 1,2 1,4 1,6 1,7 1}
{0 1,2 1,3 1,4 1,6 1,7 1}
{1 1,5 1}
于 2011-05-28T16:04:22.987 回答