注意:我将使用直接字符串操作而不是 JSON 来获取我的数据。我仍然想知道如何做到这一点。
我目前正在尝试对非常大的数据集进行分类,但第一步是将我的数据转换为我可以处理的格式。
我有一个流数组,其中包含一个可变长度的 XYZ 数据(一个数组)数组。我知道我必须有一个固定长度的数据集(对较短数据集的稀疏支持),我会修剪和“?” 因此。这是一个数据集,而不是 21 个数据集。
我的数据的最原始形式目前正在生成以下格式的 JSON 文件。
{
"0":
[[0.268869,-0.061725,1.466800],
[0.265376,-0.061317,1.453814],
[0.261664,-0.061190,1.439445],...1-n elements
"20": [[0.268869,-0.061725,1.466800],...21 containers/training file
[0.265376,-0.061317,1.453814],
[0.261664,-0.061190,1.439445]
这是我用于训练数据的一般结构。
@relation streams
@attribute 0 relational
@attribute f1 numeric
@attribute f2 numeric
@attribute f3 numeric
@end 0
@attribute 1 relational
@attribute f1 numeric
@attribute f2 numeric
@attribute f3 numeric
@end 1
@attribute 2 relational
@attribute f1 numeric
@attribute f2 numeric
@attribute f3 numeric
@end 2... (we have 21 of these)
@data
"0.268869,-0.061725,1.466800\n0.265...","0.268869,-0.0617...(sample 1)
"0.268869,-0.061725,1.466800\n0.265...","0.268869,-0.0617...(sample 2)
"0.268869,-0.061725,1.466800\n0.265...","0.268869,-0.0617...(sample 3)
... (tons of data here)
我遇到的问题是我无法将关系 ARFF 文件导出为 JSON,因此我可以看到他们需要的结构。我正在使用 JSON-C 在 C 中构建数据,因此使用这个库来构建标头会比原始字符串操作更干净(IMO),并且对于我的大多数应用程序更有用,因为它将采用广泛支持的格式。
关于如何在 weka 中使用 JSON 文件的问题:WEKA arff 文件都不包含多维数据集。我仔细阅读了 arff 文件并转换了一些文件,看看我是否可以进行模式匹配,但我运气不佳。
我从这些转换中学到的是,要将数据加载到 WEKA GUI 中,我需要一个标题。这是我现在所在的位置,有一个非常精简的示例(可以理解)无法加载。
{
"header" : {
"relation" : "delta"
"attributes" : [
{
"name": "delta",
"type": "numeric",(relational? how do I subclass here?)
"class": false, (theres no documentation on the JSON type)
"weight" : 1.0,
}
]
},
"data" : [
{
"sparse" : false,
"weight" : 1.0,
"values" : [
[
[0.268869,-0.061725,1.466800],
[0.265376,-0.061317,1.453814],
[0.261664,-0.061190,1.439445],
[0.258106,-0.061153,1.423623],
[0.255281,-0.060748,1.406505],
[0.253105,-0.059812,1.388318],
[0.250796,-0.058583,1.369752],
[0.248108,-0.057399,1.351671],
[0.245563,-0.056328,1.334261],
[0.243474,-0.055272,1.316677]
],[
[0.301861,-0.056221,1.282535],
[0.302261,-0.055824,1.270375],
[0.302599,-0.055763,1.256942],
[0.303153,-0.055863,1.242172],
[0.304334,-0.055614,1.226184],
[0.305898,-0.054782,1.209144],
[0.306914,-0.053585,1.191657],
[0.307043,-0.052422,1.174524],
[0.306837,-0.051428,1.157930],
[0.306804,-0.050517,1.141103]
],[
[0.311746,-0.050597,0.997220],
[0.316743,-0.050354,0.985238],
[0.321871,-0.050400,0.972060],
[0.327290,-0.050710,0.957635],
[0.333158,-0.050946,0.942053],
[0.339085,-0.050813,0.925458],
[0.344214,-0.050331,0.908463],
[0.348190,-0.049759,0.891851],
[0.351326,-0.049144,0.875753],
[0.354042,-0.048306,0.859365]
]
]
}
]
}