我正在寻找一种算法来发现原始数据(非ASCII)中的重复模式。
可配置的最短和最大模式尺寸。要搜索的数据大小将达到数万字节。
例如,给定以下数据:
AB CD 01 AB CD 02 EF 03 02 EF 04 02 EF
将输出遇到重复模式的次数。在这种情况下:
ABCD x2
02EF x3
我看过几种算法,例如后缀树,但通常似乎是基于字符串的。
这将用 Python 编写,但我对所涉及的概念而不是实际实现更感兴趣。
非常感谢您的帮助。
我正在寻找一种算法来发现原始数据(非ASCII)中的重复模式。
可配置的最短和最大模式尺寸。要搜索的数据大小将达到数万字节。
例如,给定以下数据:
AB CD 01 AB CD 02 EF 03 02 EF 04 02 EF
将输出遇到重复模式的次数。在这种情况下:
ABCD x2
02EF x3
我看过几种算法,例如后缀树,但通常似乎是基于字符串的。
这将用 Python 编写,但我对所涉及的概念而不是实际实现更感兴趣。
非常感谢您的帮助。