string - 将一组字符串划分为大小大致相同的最小互斥组的算法

Question

我有一大串字符串。我想将字符串分成子集，这样：

例如，给定以下一组名称：

艾伦、拉里、阿尔弗雷德、芭芭拉、阿尔方斯、卡尔

我可以将这个集合分成两个大小相等的子集。由连续字符“AL”定义的子集 1 将是

艾伦、阿尔弗雷德、阿尔方斯

由连续字符 ar 定义的子集 2 将是

拉里、芭芭拉、卡尔。

我正在寻找一种可以对任意字符串集执行此操作的算法。子集的结果集不必等于 2，但它应该是最小集，并且结果子集应该近似相等。

艾略特

score 2 · Accepted Answer

这很棘手。我想知道是否有更高的目的（比如词索引）或者这只是一个学术问题？

一般来说，它是不可解的，除非您接受由空序列定义的单个集合的平凡解（它出现在所有单词中）。例如，获取字符串：a, ab, b.

你正在处理的单词会出现类似的例子吗？我不知道。也许您可以处理映射到多个集合的单词，或者您可以拥有一个打破平局的系统来确定放置它的位置。

假设这不是问题，burrows-wheeler 变换可能有助于找到好的子串。

或者怎么样：

该算法可能已损坏，但它可能会给您一些关于解决方案的想法（或者至少对您的问题的棘手性有一些想法；-）。

score 2 · Accepted Answer

看看http://en.wikipedia.org/wiki/Suffix_array。您真正想要做的可能是为每个文档创建一个后缀数组，然后它们合并所有后缀数组，并带有指向原始版本的指针，这样您就可以通过查找将集合作为一个字符串来搜索因为它作为数组中的后缀。

2 回答 2