我需要从文本中获取前 N 个句子,其中句子的最后一个字符可以是句点、冒号或分号。例如,给定以下文本:
Lorem ipsum, dolor sit amet. consectetur adipisicing elit; sed do eiusmod tempor.
incididunt ut labore: et dolore magna aliqua. Ut enim ad. minim veniam.
前 4 句话是,
Lorem ipsum, dolor sit amet. consectetur adipisicing elit; sed do eiusmod tempor.
incididunt ut labore:
目前,我的代码使用.
,:
和;
作为分隔符拆分字符串,然后加入结果。
import re
sentences = re.split('\. |: |;', text)
summary = ' '.join(sentences[:4])
但它会从结果中删除分隔符。我对正则表达式或基本字符串操作持开放态度。