7

我正在使用带有 nltk 的 Python。我需要处理一些没有任何空格的英文文本,但是 nltk 中的 word_tokenize 函数无法处理这样的问题。那么如何在没有任何空格的情况下标记文本。Python中有什么工具吗?

4

2 回答 2

2

我不知道这些工具,但您的问题的解决方案取决于语言。

对于土耳其语,您可以逐字母扫描输入的文本并将字母累积成一个单词。当您确定累积的单词构成字典中的有效单词时,您将其另存为单独的标记,擦除用于累积新单词的缓冲区并继续该过程。

你可以试试这个英语,但我假设你可能会发现一个单词的结尾可能是某个字典单词的开头,这可能会给你带来一些问题。

于 2013-07-14T07:01:36.317 回答
2

也许维特比算法可以帮助?不确定……但可能比手动操作要好。

这个对另一个 SO 问题的回答(以及另一个高票回答)可能会有所帮助:https ://stackoverflow.com/a/481773/583834

于 2013-07-15T15:25:21.830 回答