-1

我正在尝试为基于词典的字符串标记化实现 maxmatch 算法而没有概率。我不知道从哪里开始。有人有什么想法吗?

4

2 回答 2

1

MaxMatch 已经实现。下面是一个示例实现。您不需要从头开始,您可以 fork 下面的 GitHub 存储库并根据您的要求进行增强。

https://github.com/saurabhsood91/maxmatch

必须做:

  • 无论您在哪里展示您的作品,请参考此存储库。
  • 将您实施的改进写回给作者。
  • 让社区知道您的方法有何不同和更好。
于 2018-03-09T10:54:32.090 回答
0

首先,您需要一个度量来衡量单词到您的一个标记的距离。python 库difflib绝对是帮助您实现这一目标的良好开端。

但是,尚不清楚您是想将整个文本与关键字(例如搜索词)进行匹配,还是只想将单个单词与词典中的每个单词进行匹配。

在这两种情况下,difflib 文档可能都会有所帮助。

于 2012-09-17T07:04:38.547 回答