这更像是一个算法问题,但我觉得 python 有一种巧妙的方法来做到这一点。
假设我有一个字符串:
string = " this is how i do is it..is this is how we do it.. this is how everyone do it is"
现在我基本上想从字符串中提取最重要的块。我如何决定“最重要”基本上只是通过查看词频。所以可以说,如果我想要一个长度为 10 个字符/单词(基本上是一个固定窗口)的块,那么基本上我试图找到其术语具有最大术语频率得分的块。
所以在上面的例子中,可能“是”是重复次数最多的词。所以也许最好的块是
"is this is"
或类似的东西。??我如何在 python 中有效地做到这一点(这是给 python 社区的)
有没有更好的方法来解决这个问题(这是针对算法社区的)