我只编程了大约一年,所以非常了解基础知识,但我很难理解 python 多处理文档。如果有人能指出我手头问题的正确方向,那就太好了。
我正在使用 python-Levenshtein c-module 来计算大量 DNA 序列(~5000-2000)之间的成对距离,并希望使用多处理来加快速度。我的问题的基本版本的伪代码如下:
def edit_distance(seqA, seqB):
...
return distance
sequence_list = [seq1, seq2, ... seq10000]
results_dict = {}
centroid = sequence_list[0]
results_dict[centroid] = {}
for target in sequence_list[1:]:
results_dict[centroid][target] = edit_distance(centroid, target)
完全实施后,这将使用每个 seq 作为质心来执行。如果有人能指出哪种方法最适合多处理 sequence_list[1:] 中所有目标的距离计算,那就太好了。谢谢。