python - 在字符串中查找字符/单词的周围句子

Question

我正在尝试使用 python 从包含给定子字符串的字符串中获取句子。

我可以访问字符串（学术摘要）和带有开始和结束索引的亮点列表。例如：

{
  abstract: "...long abstract here..."
  highlights: [
    {
      concept: 'a word',
      start: 1,
      end: 10
    }
    {
      concept: 'cancer',
      start: 123,
      end: 135
    }
  ]
}

我在每个亮点上循环，在摘要中找到它的开始索引（结束并不重要，因为我只需要在一个句子中获取一个位置），然后以某种方式需要识别出现索引的句子。

我可以使用将摘要标记为句子nltk.tonenize.sent_tokenize，但这样做会使索引位置变得无用。

我应该如何解决这个问题？我想正则表达式是一种选择，但 nltk 标记器似乎是一种很好的方法，如果不使用它会很遗憾。或者通过查找自上一个句号以来的字符数以某种方式重置开始索引/感叹号/问号？

score 6 · Accepted Answer

您是对的，NLTK 标记器确实是您在这种情况下应该使用的，因为它足够强大，可以处理几乎所有句子的定界，包括用“引号”结束句子。您可以执行以下操作（paragraph来自随机生成器）：

从...开始，

from nltk.tokenize import sent_tokenize

paragraph = "How does chickens harden over the acceptance? Chickens comprises coffee. Chickens crushes a popular vet next to the eater. Will chickens sweep beneath a project? Coffee funds chickens. Chickens abides against an ineffective drill."
highlights = ["vet","funds"]
sentencesWithHighlights = []

最直观的方式：

for sentence in sent_tokenize(paragraph):
    for highlight in highlights:
        if highlight in sentence:
            sentencesWithHighlights.append(sentence)
            break

但是使用这种方法，我们实际上得到了一个有效的 3x 嵌套for循环。这是因为我们首先检查 each sentence，然后是 each highlight，然后是sentencefor 中的每个子序列highlight。

我们可以得到更好的性能，因为我们知道每个亮点的起始索引：

highlightIndices = [100,169]
subtractFromIndex = 0
for sentence in sent_tokenize(paragraph):
    for index in highlightIndices:
        if 0 < index - subtractFromIndex < len(sentence):
            sentencesWithHighlights.append(sentence)
            break
    subtractFromIndex += len(sentence)

无论哪种情况，我们都会得到：

sentencesWithHighlights = ['Chickens crushes a popular vet next to the eater.', 'Coffee funds chickens.']

score 1 · Accepted Answer

我假设您的所有句子都以以下三个字符之一结尾：!?.

怎么样循环高亮列表，创建一个正则表达式组：

(?:list|of|your highlights)

然后将您的整个摘要与此正则表达式匹配：

/(?:[\.!\?]|^)\s*([^\.!\?]*(?:list|of|your highlights)[^\.!\?]*?)(?=\s*[\.!\?])/ig

这样，您将在每个匹配的第一个子组 ( RegExr )中获得包含至少一个亮点的句子。

score 0 · Accepted Answer

另一种选择（虽然很难说它对于可变定义的文本有多可靠）是将文本拆分成一个句子列表并针对它们进行测试：

re.split('(?<=\?|!|\.)\s{0,2}(?=[A-Z]|$)', text)

python - 在字符串中查找字符/单词的周围句子

3 回答 3

Related

Reference