我正在使用达nltk.word_tokenize
里语。问题是我们在一个单词之间有空格。
例如"زنده گی"
表示生命的词。和相同的; 我们还有很多别的词。所有以字符结尾的单词"ه"
我们必须给它一个空格,否则,它可以组合,例如"زندهگی"
。
任何人都可以帮助我使用[tag:regex]
或任何其他方式不应该标记一个单词的一部分以结尾的单词,"ه"
然后,就会有这个"گ "
字符。
我正在使用达nltk.word_tokenize
里语。问题是我们在一个单词之间有空格。
例如"زنده گی"
表示生命的词。和相同的; 我们还有很多别的词。所有以字符结尾的单词"ه"
我们必须给它一个空格,否则,它可以组合,例如"زندهگی"
。
任何人都可以帮助我使用[tag:regex]
或任何其他方式不应该标记一个单词的一部分以结尾的单词,"ه"
然后,就会有这个"گ "
字符。