我正在做一个项目,我需要根据它们的相似程度对句子进行分组。
例如,这些句子需要分组到一个集群中:
- 苹果第一季度的巨额收益仍然低于华尔街
- Apple 公布 2013 年第一季度收益:创纪录的 545 亿美元收入。
- 苹果公布了创纪录的收入和利润;iPhone 销量跃升近 30%。
标题不断出现,所以我可能需要即时安排和修改集群。目前我正在使用 Monge-Elkan 算法来识别两个字符串的相似程度,但我不知道如何对它们进行聚类。
在互联网上搜索让我相信我需要使用 K-Means 算法对内容进行分组,但我不知道如何继续我拥有的内容。
让事情变得稍微复杂的是我将它托管在 Google App Engine 上,所以我不能使用文件系统。