我有数据需要保持在输入的确切序列(基因组测序)中,我想搜索大约 10 亿个节点,每个节点约有 18 个成员来定位模式。
显然,对于这么大的数据集,速度是一个问题,实际上我目前没有任何数据可以用作离散键,因为搜索的基础是定位和隔离(但不是删除)重复项。
我正在寻找一种可以在相对较短的时间内遍历数据以定位这些模式和相似性的算法,并且我可以计算出正则表达式进行比较,但我不确定如何获得更快的搜索比 O(n)。
任何帮助,将不胜感激。
谢谢
我有数据需要保持在输入的确切序列(基因组测序)中,我想搜索大约 10 亿个节点,每个节点约有 18 个成员来定位模式。
显然,对于这么大的数据集,速度是一个问题,实际上我目前没有任何数据可以用作离散键,因为搜索的基础是定位和隔离(但不是删除)重复项。
我正在寻找一种可以在相对较短的时间内遍历数据以定位这些模式和相似性的算法,并且我可以计算出正则表达式进行比较,但我不确定如何获得更快的搜索比 O(n)。
任何帮助,将不胜感激。
谢谢