我正在处理中文 NLP 问题。我发现找到的单词有特定的后缀。例如,我有两个列表!
suffixs = ['aaa','bbb','cc'.....]
words_list = ['oneaaa','twobbb','three','four']
for w in words_list:
if w has suffix in suffixs:
func(s,w)
我知道我可以使用 re 包,但 re 只能处理不到 100 个后缀,但我有 1000+ 后缀。我尝试使用
for w in words_list:
for s in suffixs:
#suffixs sorted by lenth
if s is_suffix_of(w):
func(s,w)
break
但它太慢了。
func(s,w) 可以将单词w拆分为 no_suffix 单词和后缀。
例如 'oneaaa' 到 ['one','aaa'],但是 func 基于一些条件并且更复杂。所以 any在这里不起作用。
所以我想知道是否有更好的方法来处理它。