许多自然语言都有前缀,可以为单词添加一些含义。例如:anti
防病毒、co
协调员、counter
对口
检测stem
需要将这些前缀分开。假设有一个特定语言的前缀列表:
prefix_list = ['c', 'ca', 'ata', 'de']
如何在一个单词中处理所有可能的重叠出现"catastrophic"
结果应该是:
['c', 'ca']
试验:
|
字符不支持重叠- Otto 的解决方案不会在单词的开头出现重叠
- 我尝试在以前的解决方案中反向断言,但后视需要固定宽度的模式
笔记:
ata
不能是结果,因为单词不是以ata