问题标签 [arff]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
701 浏览

weka - WEKA:如何将聚类结果保存到 arff?

我想将clusterer(蜘蛛网)结果保存到arff文件中,但我似乎无法弄清楚。我知道如何从GUI保存结果,但我无法从我的代码中弄清楚如何做到这一点java,即使搜索了几个小时。

这是我的代码。

0 投票
1 回答
8805 浏览

java - 如何将属性类型更改为字符串(WEKA - CSV 到 ARFF)

我正在尝试使用 WEKA 库制作 SMS SPAM 分类器。我有一个带有“标签”和“文本”标题的 CSV 文件。当我使用下面的代码时,它会创建一个带有两个属性的 ARFF 文件:

目前,似乎文本属性被格式化为一个名义属性,每个消息的文本作为一个值。但我需要 text 属性是 String 属性,而不是所有实例中所有文本的列表。将文本属性作为字符串将允许我使用 StringToWordVector 过滤器来训练分类器。

我知道我可以像这样创建一个字符串属性:

但我不知道如何替换当前属性,或者在读取 CSV 之前设置属性类型。

我尝试插入一个新的字符串属性并删除当前的标称属性,但这会删除所有的 SMS 文本。我也尝试使用renameAttributeValue,但这似乎不适用于更改属性类型。

编辑: 我怀疑这个NominalToString 过滤器可以完成这项工作,但我不确定如何使用它。

任何建议将不胜感激。谢谢!

0 投票
2 回答
5115 浏览

machine-learning - 在 Weka 中使用 HMM

我正在使用 weka.classifiers.bayes.HMM 尝试对我的一些数据进行分类,但我似乎找不到任何关于我的 ARFF 文件应该是什么样子的示例......文档对我来说并不是很清楚.

所以我知道 HMM 需要时间序列数据,我的问题是如何在我的数据集中表示它?我应该在每个特征行前面添加另一个“数字”索引吗?例如,这是我的 3 条特征线(总共有 10 条,但都遵循这种格式):

2,2.217950,2.235440,0.031252,2.224833,2.301141,0.093227,1.940765,1.973835,0.064434,1 2,2.216870,2.235608,0.035570,2.217950,2.235440,0.031252,2.023161,2.531513,0.623939,1 2,2.216577,2.246109,0.045806, 2.216870,2.235608,0.035570,2.497010,2.529199,0.050049,1

每行包含几个能量读数,它们都按顺序列出:第 1 行在前,第 2 行在 1 秒后出现,第 3 行,在第 2 行读数后 1 秒等。

我如何在 Weka 中使用 HMM 来训练这个集合?(是的,我知道我需要一个单独的测试数据集,它也是一个时间序列)

谢谢!!

0 投票
6 回答
17249 浏览

machine-learning - weka中的训练和测试集不兼容错误?

我正在尝试使用新数据集测试我的模型。我已经完成了与构建模型相同的预处理步骤。我比较了两个文件,但没有问题。我拥有相同顺序、相同属性名称和数据类型的所有属性(训练与测试数据集)。但我仍然无法解决问题。两个文件 train 和 test 似乎相似,但 weka explorer 给我错误说 Train 和 test set 不兼容。如何解决此错误?有没有办法将 test.arff 文件格式设为 train.arff?请有人帮助我。

这是文件比较的屏幕截图

0 投票
0 回答
86 浏览

python - arff 输出错误

我正在使用 Python 脚本并将结果(使用 ntlk 计算)写入 arff 文件。需要进入 arff 文件的信息是字母和单词(不是数字)。但是,每当我运行我的脚本时,我都会得到一个包含零的 arff 文件。像这样:

这是我写入 arff 的一段代码:

0 投票
1 回答
2044 浏览

java - csv到arff的转换

我是 java 的初学者,我想将现有的 .csv 文件转换为 .arff 文件,并且我已经编写了以下代码并且它没有转换,而是我得到了错误。请任何人都可以帮助我解决这些错误并建议我如何编程:

0 投票
1 回答
947 浏览

classification - Weka - 如何查找分类器的输入格式

我在 Java 程序中使用 Weka 对一些文本文档进行分类,并使其与 NaiveBayesMultinomial 分类器配合良好。

但是,我似乎找不到任何关于如何过滤我的实例(或 ARFF 文件)的文档,以便它们可以被其他分类器接受为输入。如果我将 ARFF 加载到 Weka Explorer GUI 中,那么大多数分类器都是灰色的。使用 StringToWordVector 过滤器不会影响这一点,我也尝试了其他一些。

谁能告诉我如何准备我的数据,以便其他分类器可以接受它,例如 NaiveBayes、JRip 或 BayesNet?

0 投票
3 回答
6271 浏览

data-mining - Weka 中的布尔属性

是否可以在 WEKA 中实现布尔属性?

我想实施购物篮分析,为此我需要一张这样的表格

等等。

对于Nofalse,我可以使用?,它代表 WEKA 中的空值:

但现在我得到了频率。项目集和规则,例如:

但我只想拥有

你懂我的意思吗?

我找到了有关创建 ARFF 文件的指南,但没有任何布尔数据类型。但是拥有这样的数据类型会很有用,还是我想错了?

0 投票
1 回答
494 浏览

awk - 使用 awk 将稀疏矩阵转换为 ARFF

我正在使用稀疏矩阵格式的超大数据集。

数据具有归档格式(3 个制表符分隔的列,其中第一列中的字符串对应一行,第二列中的字符串对应属性,第三列中的值是加权分数)。

我想使用 awk (如果可能的话)将其转换为 arff 格式,以便使用上述作为输入,我可以获得以下输出:

我在这里看到了这个 awk 文件,它产生的结果与我需要的非常相似。但是,输入有点不同。我试图通过更改 FS = "|" 来操纵提供的代码 到“\t”,但它不会产生预期的结果。有没有人建议我如何操纵这个 awk 代码将我的输入转换为我想要的输出?

0 投票
1 回答
8586 浏览

weka - Weka错误打开arff文件

我正在尝试在 weka 中打开一个 arff 文件,但出现两个错误。第一个,“文件未被识别为 arff 文件。原因:标头中未声明标称值,读取 Token[25],第 772 行”

奇怪的是我删除了第 25 个元素再试一次,它说“文件未被识别为 arff 文件。原因:行过早结束,读取 Token[EOL],第 773 行”

有谁知道发生了什么?

这是文件: https ://www.dropbox.com/s/utmopltp3eljtyq/hegazkinak.arff