0

我正在尝试使用 weka 3.7 explorer 进行文本分类。我使用文本加载器将 2 个文本文件(分为两个目录 class1 和 class2)转换为 arff。在此之前,我将案例标准化以降低。现在,当我将文件加载到 weka 并应用过滤器 stringtowordvector(例如 stopwords、usewordcount、usestoplist、stemmer - snowballstemmer)时,我的变量列表没有任何变化。对于每个类,所有变量(单词)都以 1 或 0 的形式给出。

请帮我。

这是我的过滤器命令

weka.filters.unsupervised.attribute.StringToWordVector -R first-last -W 1000 -prune-rate -1.0 -C -N 0 -S -stemmer weka.core.stemmers.SnowballStemmer -M 1 -tokenizer "weka.core.tokenizers .WordTokenizer -delimiters \" \r\n\t.,;:\\'\\"()?!\""

4

1 回答 1

0

当我想从 .csv 读取并使用 StringToWord 向量时,这发生在我身上。

我的问题是,文本属性是标称类型而不是字符串。我使用了“NominalToString”类,用它来将值更改为字符串,然后它就起作用了。

于 2014-09-16T15:56:52.670 回答