我无法计算相对较大数据集中每一行的平均情绪(N = 36140)。我的数据集包含来自 Google Play 商店应用程序的评论数据(每一行代表一条评论),我想使用sentiment_by()
函数计算每条评论的情绪。问题是这个函数需要很多时间来计算它。
这是我的 .csv 格式数据集的链接:
https://drive.google.com/drive/folders/1JdMOGeN3AtfiEgXEu0rAP3XIe3Kc369O?usp=sharing
我试过使用这段代码:
library(sentimentr)
e_data = read.csv("15_06_2016-15_06_2020__Sygic.csv", stringsAsFactors = FALSE)
sentiment=sentiment_by(e_data$review)
然后我收到以下警告消息(在 10 多分钟后取消该过程后):
Warning message:
Each time `sentiment_by` is run it has to do sentence boundary disambiguation when a
raw `character` vector is passed to `text.var`. This may be costly of time and
memory. It is highly recommended that the user first runs the raw `character`
vector through the `get_sentences` function.
我也试过用get_sentences()
下面的代码使用这个函数,但是这个sentiment_by()
函数仍然需要很多时间来执行计算
e_sentences = e_data$review %>%
get_sentences()
e_sentiment = sentiment_by(e_sentences)
我有关于 Google Play 商店评论数据的数据集,并且在过去的一个月里我使用了 Sentiment_by() 函数,它在计算情绪时运行得非常快……从昨天开始我才开始运行这么长时间的计算。
有没有一种方法可以快速计算大数据集上每一行的情绪。