0

我有一个字符串列表,我想将其分类。然后我想在每个组的字符串上显示。

假设我的列表如下所示:

  • 敏捷的棕色狐狸跳过了懒狗
  • 敏捷的棕色狐狸跳过了懒狗!!!!
  • 棕狐跳过懒狗
  • Zing,矮人运动员 vex 淋巴
  • 矮人运动员 vex 淋巴123
  • 我很喜欢饼干

然后我想展示这样的东西(每个类一个字符串):

  • 敏捷的棕色狐狸跳过了懒狗
  • 矮人运动员 vex 淋巴123
  • 我很喜欢饼干

我知道三元组是将字符串分类为“相似的字符串”和“不同的字符串”的一种非常简单且有用的解决方案。我也很确定它们可用于将字符串列表划分为类,但我不确定如何。

这里的任何人都可以帮助我,还是我应该使用完全不同的东西?

我更喜欢一种简单且可维护的方法,而不是高精度。

4

2 回答 2

0

You can use nearly any clustering technique and simply select one representant from each cluster. One of the simpliest approaches would be to use k-medoids over the space of n-grams of your texts, and print out the cluster's centroids (as k-medoids requires centroids to be parts of the training set)

于 2014-10-08T15:37:52.350 回答
0

您还没有提到用于将字符串聚类成组的标准。从您的问题中不清楚什么是分组标准。我可以想象任何标准:

  • 字符串长度在某个范围内
  • 字符串中出现(或未出现)的一些字母
  • 一些出现(或未出现)到字符串中的单词
  • 字符串接近某个度量(例如列文斯坦距离)
  • 字符串在意义上很接近
  • 还有数百个..

请准确提及您的案例中的分类标准是什么。

于 2014-10-08T15:55:28.027 回答