我有一个带有类似单词的语料库,applefruit
它没有被我想做的任何分隔符分隔。因为这可能是一个非线性问题。我想仅当字典中的单词是语料库中单词的子字符串时才传递自定义字典进行拆分。
apple
如果我的字典在语料库中只有和 3 个单词aaplefruit
, applebananafruit
, bananafruit
. 输出应该看起来像 apple , fruit
apple, bananafruit
, bananafruit
。
请注意,我不是在拆分bananafruit
,目标是通过仅拆分字典中提供的文本来加快处理速度。我正在使用 scala 2.x。