python - cuDF 用于字符串比较提升

问问题 2020-09-28T02:58:07.163

102 次

我正在寻找 2 个大型 csv 文件之间的匹配项。我使用这个函数来计算 2 个字符串之间的相似度。如果给定的比率大于预定义的阈值，那么我将接受它作为匹配项。

def similar(a, b): return SequenceMatcher(None, a, b).ratio()

因为我需要遍历两个文件的每一行，所以时间复杂度是 O(n^2)。我考虑过使用哈希将时间复杂度降低到 O(n)，但这会将我的匹配限制为完全匹配而没有灵活性。但是，第一种方法需要我几天时间才能在具有 CPU 的本地计算机上执行。因此，我想知道是否有办法使用 cuDF 来增强 GPU 的操作。

另外，当我尝试 cuDF applymap 函数时，它说它不支持字符串 dtype，那么还有其他方法可以使用 cuDF 来实现吗？谢谢！

0 回答 0