我是 dask 的新手,想知道是否有人可以帮帮我。我有一个 >20GB 的大型文本数据集,需要/想要对列进行词形还原。我目前的功能 - 直接与熊猫一起使用的是
wnl = WordNetLemmatizer()
def lemmatizing(sentence):
stemSentence = ""
for word in sentence.split():
stem = wnl.lemmatize(word)
stemSentence += stem
stemSentence += " "
stemSentence = stemSentence.strip()
return stemSentence
通常会做以下事情
df['news_content'] = df['news_content'].apply(lemmatizing)
我正在看,delayed
但我对如何实现它感到困惑。
非常感谢任何帮助。