我有 1000 个正则表达式模式,我必须在 9000 个字符串中的每一个中进行搜索。使用 pandas 列表的正常蛮力方法需要 25 分钟来完成相同的任务。我使用了 dask 的延迟函数来并行化整个函数。完成任务花了9分钟。我需要更快的速度。如何利用 dask 数组或 dask 数据框来完成任务?或者有什么更快的方法吗?
def match(string):
for regex in regex_list:
if re.search(regex, string):
pass
[match(x) for x in string_list]