7

我正在使用达nltk.word_tokenize。问题是我们在一个单词之间有空格。
例如"زنده گی"表示生命的词。和相同的; 我们还有很多别的词。所有以字符结尾的单词"ه"我们必须给它一个空格,否则,它可以组合,例如"زندهگی"

任何人都可以帮助我使用[tag:regex]或任何其他方式不应该标记一个单词的一部分以结尾的单词,"ه"然后,就会有这个"گ "字符。

4

1 回答 1

1
于 2018-12-15T20:44:54.093 回答