我想解决分词问题(从没有空格的长字符串中解析单词)。例如,我们想从somelongword
to中提取单词[some, long, word]
。
我们可以通过字典的一些动态方法来实现这一点,但我们遇到的另一个问题是解析歧义。即orcore
=>or core
或orc ore
(我们不考虑短语含义或词性)。所以我考虑使用一些统计或机器学习方法。
我发现带有训练集的朴素贝叶斯和维特比算法可以用来解决这个问题。你能给我一些关于将这些算法应用于分词问题的信息吗?
UPD:我已经在 Clojure 上实现了这个方法,使用了 Peter Norvig代码中的一些建议