9

在一个文本文件中,我有 150 个单词。我有另一个文本文件,它有大约 100,000 行。

如何检查属于第一个文件的每个单词是否在第二个文件中?

我想过使用grep,但我不知道如何使用它来阅读原文中的每个单词。

有什么办法可以做到这一点awk吗?还是另一种解决方案?

我尝试使用这个 shell 脚本,但它几乎匹配每一行:

#!/usr/bin/env sh
cat words.txt | while read line; do  
    if grep -F "$FILENAME" text.txt
    then
        echo "Se encontró $line"
    fi
done

我发现的另一种方法是:

fgrep -w -o -f "words.txt" "text.txt"
4

2 回答 2

7

您可以使用grep -f

grep -Ff "first-file" "second-file"

或否则匹配完整的单词:

grep -w -Ff "first-file" "second-file"

更新:根据评论:

awk 'FNR==NR{a[$1]; next} ($1 in a){delete a[$1]; print $1}' file1 file2
于 2014-01-22T15:46:54.040 回答
3

像这样使用 grep:

grep -f firstfile secondfile

第二个选项

感谢 Ed Morton 指出文件中的单词“reserved”被视为模式。如果这是一个问题 - 它可能是也可能不是 - OP可能会使用类似这样的不使用模式的东西:

文件“保留”

cat
dog
fox

和文件“文本”

The cat jumped over the lazy
fox but didn't land on the
moon at all.
However it did land on the dog!!!

awk 脚本是这样的:

awk 'BEGIN{i=0}FNR==NR{res[i++]=$1;next}{for(j=0;j<i;j++)if(index($0,res[j]))print $0}' reserved text

输出:

The cat jumped over the lazy
fox but didn't land on the
However it did land on the dog!!!

第三个选项

或者,它可以非常简单地完成,但在 bash 中更慢:

while read r; do grep $r secondfile; done < firstfile 
于 2014-01-22T15:47:17.237 回答