我有大约 350 个文本文件(每个文件大约 75MB)。我正在尝试合并所有文件并删除重复的条目。该文件采用以下格式:
ip1,dns1
ip2,dns2
...
我写了一个小shell脚本来做到这一点
#!/bin/bash
for file in data/*
do
cat "$file" >> dnsFull
done
sort dnsFull > dnsSorted
uniq dnsSorted dnsOut
rm dnsFull dnsSorted
我经常做这个处理,想知道下次我运行它时是否可以做些什么来改进处理。我对任何编程语言和建议持开放态度。谢谢!