我有一个长文本(大约 5 MB 文件大小)和另一个称为模式的文本(大约 2000 个字符)。
任务是从长文本中 15 个字符或更长的基因组模式中找到匹配的部分。
例子:
长文本: ACGTACGTGTCA AAAACCCCGGGGTTTTA GTACCCGTAGGCGTAT 并且 更长
模式: ACGGTATTGAC AAAACCCCGGGGTTTA TGTTCCCAG
我正在寻找一种高效(且易于理解和实现)的算法。
如果可能的话,奖金将是一种在 C++ 中仅使用字符数组来实现这一点的方法。