我有一个包含英国单词的 78k 行 .txt 文件和一个包含最常见英国单词的 5k 行 .txt 文件。我想从大列表中整理出最常用的单词,以便我有一个新列表,其中包含不常用的单词。
我设法在另一件事上解决了我的问题,但我真的很想知道,我做错了什么,因为这不起作用。
我尝试了以下方法:
//To make sure they are trimmed
cut -d" " -f1 78kfile.txt | tac | tac > 78kfile.txt
cut -d" " -f1 5kfile.txt | tac | tac > 5kfile.txt
grep -xivf 5kfile.txt 78kfile.txt > cleansed
//But this procedure apparently gives me two empty files.
如果我只运行 grep 而不先 cut ,我会得到我知道的两个文件中的单词。
我也试过这个:
sort 78kfile.txt > 78kfile-sorted.txt
sort 5kfile.txt > 5kfile-sorted.txt
comm -3 78kfile-sorted.txt 5kfile-sorted.txt
//No luck either
这两个文本文件以防有人想自己尝试: https ://www.dropbox.com/s/dw3k8ragnvjcfgc/5k-most-common-sorted.txt https://www.dropbox.com/s/1cvut5z2zp9qnmk /brit-az-sorted.txt