我有一个包含 350k 行和一列(名为“文本”)的数据框。
我想将此函数应用于我的数据集:
def extract_keyphrases(caption, n):
extractor = pke.unsupervised.TopicRank()
extractor.load_document(caption)
extractor.candidate_selection(pos=pos, stoplist=stoplist)
extractor.candidate_weighting(threshold=0.74, method='average')
keyphrases = extractor.get_n_best(n=n, stemming=False)
return(keyphrases)
df['keywords'] = df.apply(lambda row: (extract_keyphrases(row['text'],10)),axis=1)
但是如果我运行它,它需要很长时间才能完成(将近 50 个小时)。
可以使用 chunksize 或其他方法来并行化数据帧操作,如何?
感谢您的时间!