-2

I have a dataset as text file and data format is as follow,

ID: 1

Name: a

ID: 2

Name: b

ID: 3

Name: c

I want to convert this data format to be in arff format as follows

ID Name

1 a

2 b

3 c

Which tools should I use? It is a large dataset of 1GB with many rows. I got this dataset from snap.stadford.edu to practice Large data handling.

4

2 回答 2

0

使用您选择的编程语言怎么样?

输入格式是文本,输出格式(arff)实际上也是文本。

你为什么不写一个程序来转换格式?

于 2014-03-20T02:59:02.957 回答
0

您可以使用简单的命令行工具获得所需的结果。如果您在一个名为 的文件中有数据x.txt,请使用:

grep ID: x.txt | sed 's/^[^ ]\+ //' > a.txt
grep Name: x.txt | sed 's/^[^ ]\+ //' > b.txt

在名为 a.txt 和 b.txt 的两个不同文件中获取数据。

这些文件将具有:

$ cat a.txt
1
2
3
$ cat b.txt
a
b
c

然后使用粘贴命令加入文件:

$ paste a.txt b.txt
1   a
2   b
3   c

如您所说,如果文件很大,则此解决方案非常有效。

于 2014-03-21T10:12:45.737 回答