给定一组字符串,例如:
EFgreen
EFgrey
EntireS1
EntireS2
J27RedP1
J27GreenP1
J27RedP2
J27GreenP2
JournalP1Black
JournalP1Blue
JournalP1Green
JournalP1Red
JournalP2Black
JournalP2Blue
JournalP2Green
我希望能够检测到这些是三组文件:
- 整个S[1,2]
- J27[红,绿]P[1,2]
- 日志P[1,2][红、绿、蓝]
是否有任何已知的方法来解决这个问题 - 我可以阅读任何已发表的论文?
我正在考虑的方法是为每个字符串查看所有其他字符串并找到常见字符以及不同字符的位置,试图找到最有共同点的字符串集,但我担心这不是很有效并且可能会给出误报。
请注意,这与“如何检测文件名中的常见字符串组”不同,因为它假定字符串后面总是有一系列数字。