问题标签 [arff]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
weka - Arff 文件 - 标头中未声明的标称值。
我正在使用 Java 程序生成一个 .arff 文件。该文件有大约 600 个属性。
我无法在 Weka Explorer 中打开该文件。它说:“标称值未在标头中声明,请阅读 Token[0],第 626 行。”
这是第一个属性行:@attribute vantuono numeric
这是第 626 行的前几个字符:0,0,0,0,1,0,0,0,0,1,0,1...
为什么 WEKA 无法将“0”解析为数值?
有趣的是,这只发生在这个文件中。我有其他具有数字属性的文件接受“0”作为值。
weka - 无法确定为 arff(原因:java.io.IOException:过早结束行,读取令牌 [EOL],第 1182 行
我有一些数据,我正在处理它并以一种生成 .arff 文件的方式对其进行转换,如下所示:
这只是属性列表的一部分。我需要在 weka 中打开 arff 文件,但它会引发主题中提到的错误。错误指向该行:
我无法在引发错误的文件中找到错误。
mahout - 如何根据评级制作 Mahout 稀疏向量?
有一个从文本创建 Mahout Vector 对象的示例。它说:
在创建向量之前,您需要将文档转换为 SequenceFile 格式。SequenceFile 是一个 hadoop 类,它允许我们将任意键值对写入其中。DocumentVectorizer 要求键是具有唯一文档 ID 的文本,值是 UTF-8 格式的文本内容。
这有点清楚,因为我知道 SequenceFile 是什么。然而,对于所有 Mahout 算法(聚类、分类等),内容实际上是一个词袋(或 n-gram)。值是否被视为空格分隔?
更重要的是,我实际上想对非文本的内容进行聚类。例如,假设我有用户以空格分隔格式对电影进行评分:
假设我想对电影进行聚类。我可以将用户视为“文档”(电影分组),将电影视为“单词”。我如何将这些评级转换为矢量文件?我可以将其转换为arff(还不确定如何)并使用 Mahout 的arff.vector。有没有一个更简单的实用程序,只需要文档到单词的关联(或计数)并制作向量?
不必将 1 亿个评级作为 ARFF 放在磁盘上只是为了将其放入序列文件中,而只是为了将其放入向量中,这将是很方便的。
classification - 在 Weka 中对未标记的数据进行分类
我目前在 Weka 中使用各种分类器。
我的测试数据被标记,例如:
每行的最后一个值是类元素,即响应。
但是,如果我尝试未标记的测试数据,例如:
Weka 将执行分类但忽略未标记的行。所以上面的测试将只包括第 1 行和第 3 行。
有谁知道如何解决这个问题?我应该在测试文件中声明类属性还是遗漏了什么?
摩根先生。
java - 向 ARFF 文件添加注释
这是我在这个论坛上的第一个问题....我正在使用 WEKA API 在 java 中制作数据挖掘应用程序。我首先进行预处理阶段,当我保存 ARFF 文件时,我想添加几行(作为注释)指定我对文件所做的预处理任务......问题是我没有知道如何从 java WEKA API 向 ARFF 文件添加注释。为了保存文件,我像这样使用 ArffSaver 类...
如果有人能给出一些想法,我会非常高兴......谢谢!
java - 结合不同arff文件的属性
我正在与 Weka 合作一个项目,我有两个不同的arff文件,如下所示:
文件 1:
文件2:
有没有办法通过组合这两个 arff 文件来创建一个新文件,如下所示?
文件3:
合并并且不起作用,因为我在每个文件上都有不同的属性。
python - arff 文件中的标称属性由 python 中的 arff 库创建
Python 中 arff 库中的dump
命令使用户能够根据给定的输入创建 arff 文件,例如命令:
产生以下 arff:
对于给定的数据:
我的问题是:如何通知相关机制我希望它hairColor
是一个名义属性,即我希望我的 arff 标头如下:
java - 变量附加 Java
我正在使用 Java 编写数据挖掘应用程序。
为此,我正在读取“arff”文件并在 WEKA 中创建的模型上运行它。
目前我有一个 ARFF 文件,其中一行作为要处理的数据并且工作良好。
我想要实现的是:来自 jCheckbox 的用户输入或一些信息,我将用于在模型上运行。我教了两种方法来做到这一点。
1.读取没有最后一行的文件,并且只将其直接附加到变量中。
2. 从 ARFF 中删除行号(始终相同),从用户输入构建一行,将其写入 ARFF,然后再次读取 ARFF。
关于哪个(我认为 1 更好)以及一般如何建议的任何建议?用 StringBuilder 尝试了一些代码,但没有成功。
nlp - Weka 忽略未标记的数据
我正在使用 Weka 中的朴素贝叶斯分类器进行 NLP 分类项目。我打算使用半监督机器学习,因此使用未标记的数据。当我在一组独立的未标记测试数据上测试从我标记的训练数据中获得的模型时,Weka 会忽略所有未标记的实例。有人可以指导我如何解决这个问题吗?以前有人在这里问过这个问题,但没有提供任何合适的解决方案。这是一个示例测试文件:
arff - 如何将 German.data 文件转换为 .arff 文件?
海
我想将此文件http://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/转换为 .arff 文件,因为我想在 weka 中使用,但在转换时出现错误文件。