我正在尝试为基于词典的字符串标记化实现 maxmatch 算法而没有概率。我不知道从哪里开始。有人有什么想法吗?
问问题
1151 次
2 回答
1
MaxMatch 已经实现。下面是一个示例实现。您不需要从头开始,您可以 fork 下面的 GitHub 存储库并根据您的要求进行增强。
https://github.com/saurabhsood91/maxmatch
必须做:
- 无论您在哪里展示您的作品,请参考此存储库。
- 将您实施的改进写回给作者。
- 让社区知道您的方法有何不同和更好。
于 2018-03-09T10:54:32.090 回答
0
首先,您需要一个度量来衡量单词到您的一个标记的距离。python 库difflib绝对是帮助您实现这一目标的良好开端。
但是,尚不清楚您是想将整个文本与关键字(例如搜索词)进行匹配,还是只想将单个单词与词典中的每个单词进行匹配。
在这两种情况下,difflib 文档可能都会有所帮助。
于 2012-09-17T07:04:38.547 回答