我有一个 CSV 文件,其中包含 14000 行的问卷数据。问卷有 MCQ-Multiple Response(M10,M13)。对于 MCQ-MR,就像在 M13 中一样,有 8 个选项,如果受访者选择了某个选项,则表示为 1,否则表示为 0。我想为每个位串生成一个相似度分数,并将其替换为位串。分数应该以类似00010011
和更相似的方式计算,因为受访者选择了相同的选项,除了第三和第四选择,因此与和00100011
相比,得分必须更接近。00010011
00000001
M10,M13
1111000100001000,00000001
101010000001000,00000001
111010000001000,00010011
110010000001100,00100011
该线程提供了一些关于比较两个字符串之间的 Levenshtein 距离的见解。但是对于 14000 行,这将是巨大的计算负担。有没有其他方法可以做到这一点?