我有一个带有自然文本的大字符串。
现在我想编写一个代码,它只打印该字符串中包含单词“but”的句子。通常我会写这样的东西:
from nltk.tokenize import sent_tokenize, word_tokenize
file1 = open ( 'text.txt', 'r' )
str1 = file1.read()
sent=sent_tokenize(str1)
word=word_tokenize(str1)
but=["but"]
for w in word:
if w in but:
print sent
但这当然行不通,因为句子不再保留,大家有什么想法吗?因此,我不仅需要 x 次“但是”这个词,还需要它出现的句子。
谢谢