5

我有几个大型数据文件(约 100MB-1GB 的文本)和一个包含数万个索引感兴趣数据点的时间戳的排序列表。时间戳文件如下所示:

12345
15467
67256
182387
199364
...

数据文件如下所示:

Line of text
12345 0.234 0.123 2.321
More text
Some unimportant data
14509 0.987 0.543 3.600
More text
15467 0.678 0.345 4.431

第二个文件中的数据都是按时间戳顺序排列的。我想使用第一个文件的时间戳来遍历第二个文件,在输出文件中打印时间戳和第四个数据项。我一直在使用这个:

grep -wf time.stamps data.file | awk '{print $1 "\t" $4 }'  >> output.file

对于每个数据文件,这需要一天的时间来完成。问题是这个命令在整个数据文件中搜索 time.stamps 中的每一行,但我只需要从最后一个数据点开始搜索。有什么方法可以加快这个过程吗?

4

3 回答 3

4

您可以完全在awk...</p>

awk 'NR==FNR{a[$1]++;next}($1 in a){print $1,$4}' timestampfile datafile
于 2013-07-03T21:03:52.630 回答
1

JS웃的awk解决方案可能是要走的路。如果join可用并且不相关的“数据”的第一个字段不是数字,您可以利用文件顺序相同的事实并避免排序步骤。此示例在 linux 上使用 bash 进程替换

join  -o2.1,2.4 -1 1 -2 1 key.txt <(awk '$1 ~ /^[[:digit:]]+$/' data.txt)
于 2013-07-03T21:24:36.833 回答
0

'grep' 有一个很少使用的选项-f filename,它从文件名中获取模式并进行匹配。它可能会击败awk解决方案,并且您的时间戳不必进行排序。

于 2013-07-04T01:16:04.527 回答