问题标签 [arff]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
weka - WEKA:如何将聚类结果保存到 arff?
我想将clusterer
(蜘蛛网)结果保存到arff
文件中,但我似乎无法弄清楚。我知道如何从GUI保存结果,但我无法从我的代码中弄清楚如何做到这一点java
,即使搜索了几个小时。
这是我的代码。
java - 如何将属性类型更改为字符串(WEKA - CSV 到 ARFF)
我正在尝试使用 WEKA 库制作 SMS SPAM 分类器。我有一个带有“标签”和“文本”标题的 CSV 文件。当我使用下面的代码时,它会创建一个带有两个属性的 ARFF 文件:
目前,似乎文本属性被格式化为一个名义属性,每个消息的文本作为一个值。但我需要 text 属性是 String 属性,而不是所有实例中所有文本的列表。将文本属性作为字符串将允许我使用 StringToWordVector 过滤器来训练分类器。
我知道我可以像这样创建一个字符串属性:
但我不知道如何替换当前属性,或者在读取 CSV 之前设置属性类型。
我尝试插入一个新的字符串属性并删除当前的标称属性,但这会删除所有的 SMS 文本。我也尝试使用renameAttributeValue,但这似乎不适用于更改属性类型。
编辑: 我怀疑这个NominalToString 过滤器可以完成这项工作,但我不确定如何使用它。
任何建议将不胜感激。谢谢!
machine-learning - 在 Weka 中使用 HMM
我正在使用 weka.classifiers.bayes.HMM 尝试对我的一些数据进行分类,但我似乎找不到任何关于我的 ARFF 文件应该是什么样子的示例......文档对我来说并不是很清楚.
所以我知道 HMM 需要时间序列数据,我的问题是如何在我的数据集中表示它?我应该在每个特征行前面添加另一个“数字”索引吗?例如,这是我的 3 条特征线(总共有 10 条,但都遵循这种格式):
2,2.217950,2.235440,0.031252,2.224833,2.301141,0.093227,1.940765,1.973835,0.064434,1 2,2.216870,2.235608,0.035570,2.217950,2.235440,0.031252,2.023161,2.531513,0.623939,1 2,2.216577,2.246109,0.045806, 2.216870,2.235608,0.035570,2.497010,2.529199,0.050049,1
每行包含几个能量读数,它们都按顺序列出:第 1 行在前,第 2 行在 1 秒后出现,第 3 行,在第 2 行读数后 1 秒等。
我如何在 Weka 中使用 HMM 来训练这个集合?(是的,我知道我需要一个单独的测试数据集,它也是一个时间序列)
谢谢!!
machine-learning - weka中的训练和测试集不兼容错误?
我正在尝试使用新数据集测试我的模型。我已经完成了与构建模型相同的预处理步骤。我比较了两个文件,但没有问题。我拥有相同顺序、相同属性名称和数据类型的所有属性(训练与测试数据集)。但我仍然无法解决问题。两个文件 train 和 test 似乎相似,但 weka explorer 给我错误说 Train 和 test set 不兼容。如何解决此错误?有没有办法将 test.arff 文件格式设为 train.arff?请有人帮助我。
python - arff 输出错误
我正在使用 Python 脚本并将结果(使用 ntlk 计算)写入 arff 文件。需要进入 arff 文件的信息是字母和单词(不是数字)。但是,每当我运行我的脚本时,我都会得到一个包含零的 arff 文件。像这样:
这是我写入 arff 的一段代码:
java - csv到arff的转换
我是 java 的初学者,我想将现有的 .csv 文件转换为 .arff 文件,并且我已经编写了以下代码并且它没有转换,而是我得到了错误。请任何人都可以帮助我解决这些错误并建议我如何编程:
classification - Weka - 如何查找分类器的输入格式
我在 Java 程序中使用 Weka 对一些文本文档进行分类,并使其与 NaiveBayesMultinomial 分类器配合良好。
但是,我似乎找不到任何关于如何过滤我的实例(或 ARFF 文件)的文档,以便它们可以被其他分类器接受为输入。如果我将 ARFF 加载到 Weka Explorer GUI 中,那么大多数分类器都是灰色的。使用 StringToWordVector 过滤器不会影响这一点,我也尝试了其他一些。
谁能告诉我如何准备我的数据,以便其他分类器可以接受它,例如 NaiveBayes、JRip 或 BayesNet?
data-mining - Weka 中的布尔属性
是否可以在 WEKA 中实现布尔属性?
我想实施购物篮分析,为此我需要一张这样的表格
等等。
对于No
或false
,我可以使用?
,它代表 WEKA 中的空值:
但现在我得到了频率。项目集和规则,例如:
但我只想拥有
你懂我的意思吗?
我找到了有关创建 ARFF 文件的指南,但没有任何布尔数据类型。但是拥有这样的数据类型会很有用,还是我想错了?
awk - 使用 awk 将稀疏矩阵转换为 ARFF
我正在使用稀疏矩阵格式的超大数据集。
数据具有归档格式(3 个制表符分隔的列,其中第一列中的字符串对应一行,第二列中的字符串对应属性,第三列中的值是加权分数)。
我想使用 awk (如果可能的话)将其转换为 arff 格式,以便使用上述作为输入,我可以获得以下输出:
我在这里看到了这个 awk 文件,它产生的结果与我需要的非常相似。但是,输入有点不同。我试图通过更改 FS = "|" 来操纵提供的代码 到“\t”,但它不会产生预期的结果。有没有人建议我如何操纵这个 awk 代码将我的输入转换为我想要的输出?
weka - Weka错误打开arff文件
我正在尝试在 weka 中打开一个 arff 文件,但出现两个错误。第一个,“文件未被识别为 arff 文件。原因:标头中未声明标称值,读取 Token[25],第 772 行”
奇怪的是我删除了第 25 个元素再试一次,它说“文件未被识别为 arff 文件。原因:行过早结束,读取 Token[EOL],第 773 行”
有谁知道发生了什么?
这是文件: https ://www.dropbox.com/s/utmopltp3eljtyq/hegazkinak.arff