我正在寻找 2 个大型 csv 文件之间的匹配项。我使用这个函数来计算 2 个字符串之间的相似度。如果给定的比率大于预定义的阈值,那么我将接受它作为匹配项。
def similar(a, b): return SequenceMatcher(None, a, b).ratio()
因为我需要遍历两个文件的每一行,所以时间复杂度是 O(n^2)。我考虑过使用哈希将时间复杂度降低到 O(n),但这会将我的匹配限制为完全匹配而没有灵活性。但是,第一种方法需要我几天时间才能在具有 CPU 的本地计算机上执行。因此,我想知道是否有办法使用 cuDF 来增强 GPU 的操作。
另外,当我尝试 cuDF applymap 函数时,它说它不支持字符串 dtype,那么还有其他方法可以使用 cuDF 来实现吗?谢谢!