问题标签 [arff]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 计算二元组频率
我编写了一段代码,它基本上计算词频并将它们插入到一个 ARFF 文件中以供 weka 使用。我想改变它,以便它可以计算二元词的频率,即成对的词而不是单个词,尽管我的尝试充其量证明是不成功的。
我意识到有很多东西要看,但非常感谢任何帮助。这是我的代码:
file-format - 稀疏 ARFF 文件的 Weka 字符串属性
我正在尝试使用 Weka 进行文本分类。为此,使用稀疏 ARFF 数据文件格式是有意义的。使用 Weka 3.7.2,我尝试了:
- 使用TextDirectoryLoader将文本目录转换为 Instances 对象 。
- 使用StringToWordVector将前一阶段产生的字符串转换为数字。
第一阶段工作得很好。第二阶段导致了一个问题,在 Weka 的 ARFF 文件格式规范中是这样描述的:
警告:从具有字符串属性的数据集中保存 SparseInstance 对象存在一个已知问题。在 Weka 中,字符串和标称数据值存储为数字;这些数字充当可能属性值数组的索引(这非常有效)。但是,第一个字符串值被分配索引 0:这意味着,在内部,这个值被存储为 0。当写入 SparseInstance 时,内部值为 0 的字符串实例不会输出,因此它们的字符串值会丢失(并且当再次读取arff文件,默认值0是不同字符串值的索引,所以属性值出现变化)。
ARFF 格式建议使用此解决方案:
要解决此问题,请在索引 0 处添加一个虚拟字符串值,只要您声明可能在 SparseInstance 对象中使用并保存为 Sparse ARFF 文件的字符串属性,就不会使用该虚拟字符串值。
我正在尝试这样做 - 添加一个虚拟字符串。我未能手动执行此操作(通过编辑 ARFF 文件)。任何做过这个的人都可以发布一个例子——一个程序段,一个正确修改的 ARFF 文件,或者其他方式来做到这一点?
谢谢。
weka - ARFF (Weka) 中的缺失值
Weka 中的分类器(例如决策树)将如何解释“?” (代表 ARFF 文件中的缺失值)在学习阶段?Weka 会用一些预定义的值(例如“0”或“假”)替换它,还是会以某种方式影响训练过程?
java - WEKA 使用 SimpleDateFormat 解析我的日期......除非它涉及 2 点钟
我有一个大的 ARFF 文件,其中的数据看起来像这样:
为了帮助解析它,我声明了第二个属性,如下所示:
使用 Java 的 SimpleDateFormat 的解析器在第一行(以及与其非常相似的几百万行)上运行良好,但在几行上就卡住了,就像第二行一样。我注意到它只会阻塞小时为“02”的一行 - 事实上,如果我将第二行更改为540,"2011-03-13 01:10:19.000",0
. 为了增加谜团,02
无论如何,一些带有 a 的行都可以很好地解析。像:1,"2006-12-16 02:58:51.000",111
那么有人知道发生了什么吗?有什么建议吗?提前致谢。
nlp - 用于自然语言处理的 ARFF
我正在尝试获取一组评论,并将它们转换为 ARFF 格式以与 WEKA 一起使用。不幸的是,要么我完全误解了格式的工作原理,要么我必须为所有可能的单词设置一个属性,然后是一个存在指示符。有谁知道更好的方法,或者理想情况下有一个示例 ARFF 文件?
python - 使用 pyparsing 解析稀疏 ARFF 时出错
全部
我找到了一段代码来解析简单的 ARFF 文件,我想将其更改为适合稀疏 ARFF,其数据如下所示:
这是代码:
但它不起作用
我想我必须告诉程序识别空白,但我不知道如何
非常感谢
r - 如何用 R 读取 .arff 文件?
有没有办法做到这一点?
是的,我是 R 新手。
java - 如何在 weka 中表示用于分类的文本?
请让我知道如何在 weka 中表示文本分类的属性或类。通过使用什么属性可以进行分类?词频还是词?ARFF 格式的可能结构是什么?你能给我几行该结构的例子吗?
非常感谢您提前。
r - RWeka read.arff 问题
我正在使用 RWeka 包的 read.arff 方法读取(稀疏)arff。但是我收到以下错误:
我试图读取的文件存在(file.exists('myfile.arff') 返回 TRUE)。
我的一行代码是:
任何想法可能会发生什么?
谢谢。
编辑 1:traceback() 输出
matlab - 使用 Weka 进行基于直方图的图像分类
我正在做一个基于直方图的图像检索项目,我需要比较一组图像的学习算法。因此,在 MATLAB 中,我将图像(256x256 像素)转换为 HSV,将其量化为 8(H)、3(S)、3(V) 并创建一个加权和,即 256x256 矩阵。
我想使用这个矩阵(数据集中的所有图像)来创建一个 ARFF 文件,我被困在这一点上。任何人都可以帮我解决它是如何完成的吗?