我的文字来源于社交网络,所以你可以想象它的本质,我认为文字是干净和最小的,只要我能想象;执行以下消毒后:
- 没有网址,没有用户名
- 没有标点符号,没有重音符号
- 没有数字
- 没有停用词(我认为 vader 无论如何都会这样做)
我认为运行时间是线性的,并且我不打算进行任何并行化,因为更改可用代码需要付出大量的努力,例如,对于大约 1000 个从 ~50 kb 到 ~150 kb 字节的文本,它需要大约
在我的机器上运行时间约为 10 分钟。
有没有更好的方法来提供算法以加快烹饪时间?代码很简单,就像 SentimentIntensityAnalyzer 打算工作一样,这里是主要部分
sid = SentimentIntensityAnalyzer()
c.execute("select body, creation_date, group_id from posts where (substring(lower(body) from (%s))=(%s)) and language=\'en\' order by creation _ date DESC (s,s,)")
conn.commit()
if(c.rowcount>0):
dump_fetched = c.fetchall()
textsSql=pd.DataFrame(dump_fetched,columns=['body','created_at', 'group_id'])
del dump_fetched
gc.collect()
texts = textsSql['body'].values
# here, some data manipulation: steps listed above
polarity_ = [sid.polarity_scores(s)['compound'] for s in texts]