我正在制作一个 shell 脚本来查找二元组,这在某种程度上是可行的。
#tokenise words
tr -sc 'a-zA-z0-9.' '\012' < $1 > out1
#create 2nd list offset by 1 word
tail -n+2 out1 > out2
#paste list together
paste out1 out2
#clean up
rm out1 out2
唯一的问题是它将前一句的结尾和开头的单词配对。
例如对于两个句子“你好世界”。和“富吧”。我会与 'world. 富'。是否有可能用 grep 或其他东西过滤掉这些?
我知道我可以找到所有包含 grep [.] 句号的二元组,但这也能找到合法的二元组。