问题标签 [arff]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
16720 浏览

python - 计算二元组频率

我编写了一段代码,它基本上计算词频并将它们插入到一个 ARFF 文件中以供 weka 使用。我想改变它,以便它可以计算二元词的频率,即成对的词而不是单个词,尽管我的尝试充其量证明是不成功的。

我意识到有很多东西要看,但非常感谢任何帮助。这是我的代码:

0 投票
1 回答
4241 浏览

file-format - 稀疏 ARFF 文件的 Weka 字符串属性

我正在尝试使用 Weka 进行文本分类。为此,使用稀疏 ARFF 数据文件格式是有意义的。使用 Weka 3.7.2,我尝试了:

  1. 使用TextDirectoryLoader将文本目录转换为 Instances 对象 。
  2. 使用StringToWordVector将前一阶段产生的字符串转换为数字。

第一阶段工作得很好。第二阶段导致了一个问题,在 Weka 的 ARFF 文件格式规范中是这样描述的:

警告:从具有字符串属性的数据集中保存 SparseInstance 对象存在一个已知问题。在 Weka 中,字符串和标称数据值存储为数字;这些数字充当可能属性值数组的索引(这非常有效)。但是,第一个字符串值被分配索引 0:这意味着,在内部,这个值被存储为 0。当写入 SparseInstance 时,内部值为 0 的字符串实例不会输出,因此它们的字符串值会丢失(并且当再次读取arff文件,默认值0是不同字符串值的索引,所以属性值出现变化)。

ARFF 格式建议使用此解决方案:

要解决此问题,请在索引 0 处添加一个虚拟字符串值,只要您声明可能在 SparseInstance 对象中使用并保存为 Sparse ARFF 文件的字符串属性,就不会使用该虚拟字符串值。

我正在尝试这样做 - 添加一个虚拟字符串。我未能手动执行此操作(通过编辑 ARFF 文件)。任何做过这个的人都可以发布一个例子——一个程序段,一个正确修改的 ARFF 文件,或者其他方式来做到这一点?

谢谢。

0 投票
1 回答
3788 浏览

weka - ARFF (Weka) 中的缺失值

Weka 中的分类器(例如决策树)将如何解释“?” (代表 ARFF 文件中的缺失值)在学习阶段?Weka 会用一些预定义的值(例如“0”或“假”)替换它,还是会以某种方式影响训练过程?

0 投票
2 回答
855 浏览

java - WEKA 使用 SimpleDateFormat 解析我的日期......除非它涉及 2 点钟

我有一个大的 ARFF 文件,其中的数据看起来像这样:

为了帮助解析它,我声明了第二个属性,如下所示:

使用 Java 的 SimpleDateFormat 的解析器在第一行(以及与其非常相似的几百万行)上运行良好,但在几行上就卡住了,就像第二行一样。我注意到它只会阻塞小时为“02”的一行 - 事实上,如果我将第二行更改为540,"2011-03-13 01:10:19.000",0. 为了增加谜团,02无论如何,一些带有 a 的行都可以很好地解析。像:1,"2006-12-16 02:58:51.000",111

那么有人知道发生了什么吗?有什么建议吗?提前致谢。

0 投票
2 回答
1829 浏览

nlp - 用于自然语言处理的 ARFF

我正在尝试获取一组评论,并将它们转换为 ARFF 格式以与 WEKA 一起使用。不幸的是,要么我完全误解了格式的工作原理,要么我必须为所有可能的单词设置一个属性,然后是一个存在指示符。有谁知道更好的方法,或者理想情况下有一个示例 ARFF 文件?

0 投票
1 回答
248 浏览

python - 使用 pyparsing 解析稀疏 ARFF 时出错

全部

我找到了一段代码来解析简单的 ARFF 文件,我想将其更改为适合稀疏 ARFF,其数据如下所示:

这是代码:

但它不起作用

我想我必须告诉程序识别空白,但我不知道如何

非常感谢

0 投票
5 回答
24128 浏览

r - 如何用 R 读取 .arff 文件?

有没有办法做到这一点?

是的,我是 R 新手。

0 投票
2 回答
7592 浏览

java - 如何在 weka 中表示用于分类的文本?

请让我知道如何在 weka 中表示文本分类的属性或类。通过使用什么属性可以进行分类?词频还是词?ARFF 格式的可能结构是什么?你能给我几行该结构的例子吗?

非常感谢您提前。

0 投票
1 回答
2281 浏览

r - RWeka read.arff 问题

我正在使用 RWeka 包的 read.arff 方法读取(稀疏)arff。但是我收到以下错误:

我试图读取的文件存在(file.exists('myfile.arff') 返回 TRUE)。

我的一行代码是:

任何想法可能会发生什么?

谢谢。

编辑 1:traceback() 输出

0 投票
1 回答
1607 浏览

matlab - 使用 Weka 进行基于直方图的图像分类

我正在做一个基于直方图的图像检索项目,我需要比较一组图像的学习算法。因此,在 MATLAB 中,我将图像(256x256 像素)转换为 HSV,将其量化为 8(H)、3(S)、3(V) 并创建一个加权和,即 256x256 矩阵。

我想使用这个矩阵(数据集中的所有图像)来创建一个 ARFF 文件,我被困在这一点上。任何人都可以帮我解决它是如何完成的吗?