我想知道机器学习、深度学习或自然语言处理中的术语,当它们之间没有空格时,它们会在段落中分割单词。
示例:“iwanttocook”
变成:“我想做饭”
这并不容易,因为您没有标记单词的字符。
我很感激任何帮助
我想知道机器学习、深度学习或自然语言处理中的术语,当它们之间没有空格时,它们会在段落中分割单词。
示例:“iwanttocook”
变成:“我想做饭”
这并不容易,因为您没有标记单词的字符。
我很感激任何帮助
polyglot
您可以使用该软件包来实现这一点。有一个用于形态分析的选项。
这种分析基于morfessor模型,该模型训练了最常见的单词以遇到语素(“语法的原始单位,语言话语中最小的单独有意义的元素”)。
从文档中:
from polyglot.text import Text
blob = "Wewillmeettoday."
text = Text(blob)
text.language = "en"
print(text.morphemes)
输出将是:
WordList([u'We', u'will', u'meet', u'to', u'day', u'.'])
请注意,如果您想开始使用多语言,您应该首先仔细阅读文档,因为有一些事情需要考虑,例如下载特定语言的模型。