0

我有一个带有自然文本的大字符串。

现在我想编写一个代码,它只打印该字符串中包含单词“but”的句子。通常我会写这样的东西:

from nltk.tokenize import sent_tokenize, word_tokenize
file1 = open ( 'text.txt', 'r' )
str1 = file1.read()
sent=sent_tokenize(str1)
word=word_tokenize(str1)
but=["but"]
for w in word:
   if w in but:
      print sent

但这当然行不通,因为句子不再保留,大家有什么想法吗?因此,我不仅需要 x 次“但是”这个词,还需要它出现的句子。

谢谢

4

1 回答 1

2
file1 = open ( 'text.txt', 'r' )
str1 = file1.read()
sent = sent_tokenize(str1)
for s in sent:
   if 'but' in s:
      print s

这段代码会不起作用吗?

于 2013-07-02T20:13:40.330 回答