我有一个字母表{A, B, C}
和这个字母表上的(大量)单词:(
AAABBCABBCCCCAA, ABBBCCC, BBBBCACAC, ...
不同的长度,不同的组合)
我正在寻找一组可以描述这些词的正则表达式(越小越好)。我更喜欢紧凑((BC)+
over BCBC
)。这不是家庭作业。
- 有什么好方法可以做到这一点?
- 是否有一个 Python 包已经这样做了?
我发现这个问题是相关的。
更新:当我说我更喜欢时,我可能会(BC)+
匆忙BCBC
。我更喜欢使用尽可能少的表达式(在最坏的情况下,每个字符串有一个正则表达式),因此对 , 或 describe 之一的偏好A+
(AA
例如AA+
)AA
应该取决于其他字符串显示的模式。