请注意,您有一个包含 5701 条记录的数据集。
> summary(lyrics)
title artist year song_lyrics
Length:5701 Length:5701 Length:5701 Length:5701
Class :character Class :character Class :character Class :character
Mode :character Mode :character Mode :character Mode :character
song_lyrics
在我的机器(Intel(R) Core(TM) i7-4790 CPU @ 3.60GHz 3.60 GHz)上分析其中的 100 个需要将近 38 秒。这意味着所有数据集大约需要 36 分钟。
> format(Sys.time(), "%a %b %d %X %Y")
[1] "Di Nov 23 15:47:57 2021"
> sentiment_lyrics <- vader_df(lyrics$song_lyrics[1:100], neu_set = TRUE)
> format(Sys.time(), "%a %b %d %X %Y")
[1] "Di Nov 23 15:48:35 2021"
对我来说,这个vader_df
函数只neu_set = TRUE
用于这个测试用例。
如果可以满足您的要求,只需按默认值计算中性词,neu_set = TRUE
并逐渐增加处理的文本数量。