我正在开发一个基于 Python/NLTK 和非英语 unicode 文本的 NLP 项目。为此,我需要在句子中搜索 unicode 字符串。
有一个.txt文件保存了一些非英语的 unicode 句子。使用 NLTK PunktSentenceTokenizer我打破了它们并保存在 python 列表中。
sentences = PunktSentenceTokenizer().tokenize(text)
现在我可以遍历列表并sentence
分别获取每个列表。
我需要做的是检查sentence
并确定哪个单词具有给定的 unicode 字符。
例子 -
sentence = 'AASFG BBBSDC FEKGG SDFGF'
假设上面的文本是非英语 unicode,我需要找到以结尾的GF
单词然后返回整个单词(可能是那个单词的索引)。
search = 'SDFGF'
同样,我需要找到以BB
get the word 开头的单词。
search2 = 'BBBSDC'