1

我想知道机器学习、深度学习或自然语言处理中的术语,当它们之间没有空格时,它们会在段落中分割单词。

示例:“iwanttocook”

变成:“我想做饭”

这并不容易,因为您没有标记单词的字符。

我很感激任何帮助

4

1 回答 1

2

polyglot您可以使用该软件包来实现这一点。有一个用于形态分析的选项。

这种分析基于morfessor模型,该模型训练了最常见的单词以遇到语素(“语法的原始单位,语言话语中最小的单独有意义的元素”)。

文档中:

from polyglot.text import Text

blob = "Wewillmeettoday."
text = Text(blob)
text.language = "en"
print(text.morphemes)

输出将是:

WordList([u'We', u'will', u'meet', u'to', u'day', u'.'])

请注意,如果您想开始使用多语言,您应该首先仔细阅读文档,因为有一些事情需要考虑,例如下载特定语言的模型。

于 2019-02-21T08:57:22.657 回答