1

我正在寻找一种可以在句子中找到 n-gram 的算法(或 C#、Java 源代码)。具体来说,我有 100 个单词的词汇表(w1 到 w100)和由这些单词组成的句子(s1、s2、s3 等)。

句子的长度从 1 到 100 个单词不等,单词可以按任何顺序出现在句子中(但一旦放在句子中,顺序就很重要),单词可以重复任意次数。

我正在寻找一种算法,该算法将采用阈值并返回高于阈值的句子中的 n-gram 以及出现 n-gram 的句子。

我也对一种间隙容错算法感兴趣,该算法以相同的顺序查找常用词,但两者之间有间隙。

提前致谢。我希望在 StackOverflow 的范围内清楚地说明这个问题。

4

0 回答 0