我正在尝试使用 Python 从文本中提取句子。文本中的每个单词都写在一行中,并带有与该单词相关的附加信息:
Mary Noun Name
loves Verb No-Name
John Noun Name
. Punct No-Name
句子边界用空行标记。我想提取包含具有某些特定特征的单词的整个句子(例如带有名称的句子)。
到目前为止,我只成功地提取了感兴趣的单词,而不是整个句子。我.readlines()
习惯逐行阅读文本。然后我遍历这些行并使用 re 和.split('\t')
拆分行,以便每一行都由 3 个元素的列表表示。然后我将列表中的元素与所需的值匹配,并可以提取相关的单词,但我不知道如何提取整个句子..
有人有什么建议吗?