问题标签 [vader]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何标记 csv 文件数据集?
对于我的情绪分析项目,我需要用极性(正面、中性、负面)标记我的数据集。csv 文件由 ["title", "description"] 的 2 列构成我需要这两个信息,我想计算分数并创建一个新列,然后将 csv 文件 ["title", "description" , "score"],你推荐哪个 python 库?SentiWordNet 和 Vader 我已经看到它们很有用,但我该如何使用它们呢?
python - NLTK Vader SentimentIntensityAnalyzer Bigram
对于 Python 中的 VADER SentimentIntensityAnalyzer,有没有办法添加二元规则?我尝试使用两个单词输入来更新词典,但它并没有改变极性分数。提前致谢!
python - 将 Vader 情绪分析写入 csv 中的新列
我有一个旅行顾问评论的 csv 文件。有四列:
人、标题、评级、评论、review_date。
我希望此代码执行以下操作:
- 在 csv 中,创建一个名为“tarate”的新列。
- 用“pos”、“neg”或“neut”填充“tarate”。它应该读取“评级”中的数值。如果“评级”>=40,则“tarate”== 'pos';“tarate” == 'neut' 如果“rating” == 30;“tarate” == 'neg' 如果“rating”<30。
- 接下来,通过 SentimentIntensityAnalyzer 运行“review”列。
- 将输出记录在名为“scores”的新 csv 列中
- 使用“pos”和“neg”分类为“复合”值创建一个单独的 csv 列
- 运行 sklearn.metrics 工具将旅行顾问评级(“tarate”)与“compound”进行比较。这可以打印。
部分代码基于 [http://akashsenta.com/blog/sentiment-analysis-with-vader-with-python/]
这是我的 csv 文件:[https://github.com/nsusmann/vadersentiment]
我遇到了一些错误。我是一个初学者,我想我被诸如指向特定列和 lambda 函数之类的东西绊倒了。
这是代码:
r - 有什么方法可以添加到 R 中的 Vader 情绪分析词典中吗?
我想在 R 中的 Vader 分析词典/词典中添加一些专业的单词术语和相应的情感值,并在 Python HERE中找到相应的答案。
但是在R中找不到等效的方法,或者在windows包存储库中找不到明显的字典文件来编辑。
这是附加词典的示例片段,我没有更多相关代码,因为这对我来说有点像一堵墙。我唯一的另一个想法是将 Vader 字典加载到另一个情绪分析包中,但如果可能的话,我宁愿避免这种情况。
python - 如何处理 TypeError:polarity_scores() 缺少 1 个必需的位置参数:'text'
当我跑步时
我得到这个错误
请帮助我应该安装或更改什么
python-3.x - 如何标记具有正面和负面情绪词的评论
我已经使用 vader 库来标记亚马逊的评论,但它不处理这些类型的评论“它没有问题并且做得很好。将它用于 Apple TV 并且效果很好。我会再次购买没问题”。这是肯定句,但代码将其标记为否定句。我该如何处理这些类型的评论。
这是示例文件:
python - 使用 VADER 和 textBlob 的情感极性的平均值可以得到更准确的结果,为什么?
我有一组手动标记的约 120K 推文。如果我使用 VADER 的复合分数,它只匹配约 24% 的记录的手动标记,textblob 匹配约 35% 的手动标记记录。如果我将 Vaders 复合分数和 textblob 分数相加,然后除以 2,得到的情绪结果与手动标记匹配的概率约为 70%。有什么理由让它更准确还是只是巧合?
python - 类的新实例包含赋予旧实例的旧数据
我正在尝试使用vader
in分析一些评论python
。我做了一个Analyzer
这样的课程:
我像这样使用这个类main.py
:
现在的问题是:当品牌被分配给要分析的类时,较旧的评论仍保留在列表中。
例如:apple.csv 有 1000 条评论,google.csv 有 700 条评论。但是当 google 传递给分析器时,reviews
列表长度不是 700,而是 1700。
python - python - 如何在Python中创建一个在unigrams之前对ngrams进行评分的函数?
假设我想text
用一个名为的字典评分dictionary
:
我想编写一个函数,将 indictionary
中的每个术语相加text
。但是,这样的规则必须有细微差别:优先考虑 ngrams 而不是 unigrams。
具体来说,如果我总结其中的一元dictionary
,text
我得到:1+(-1)+(-1)+(-1)=-2
因为like =1, reduce=-1, carbon =-1,emissions=-1
。这不是我想要的。该函数必须说明以下内容:
- 首先考虑ngrams(
reduce carbon emissions
在示例中),如果ngrams的集合不为空,则为其赋予相应的值,否则如果ngrams的集合为空,则考虑unigrams; - 如果 ngrams 集合非空,则忽略所选 ngrams 中的那些单个单词(unigrams)(例如,忽略已经在“减少碳排放”中的“减少”、“碳”和“排放”)。
这样的函数应该给我这个输出:+2
因为like =1
+ reduce carbon emissions = 1
。
我对 Python 很陌生,我被困住了。谁能帮我这个?
谢谢!
nlp - 情绪分析的转录转换
我正在对用户的 UX 网站测试成绩单进行情绪分析。我从测试会话中得到成绩单,然后我分析成绩单以进行情绪分析——用户对网站的看法是什么,用户遇到了什么问题,他是否有任何问题、卡住、迷路。由于这是非常特定于域的,我正在测试 TextBlob 和 Vader,看看哪个能提供更好的结果。我的问题是在流程的开始 - 语音到文本 API 的成绩单并不完美。句子(句号)没有被捕获或者是最小的。我不确定分析应该在什么级别,因为我希望我可以在句子级别上进行分析. 我尝试制作 n-gram 并分析那些短文本块,但这并不理想,而且结果有点难以阅读——因为有些部分会重复。除此之外,我还进行经典的文本清理、标记化、pos 标记、词形还原并将其提供给 TextBlob 和 Vader。
成绩单示例:okay so if I go just back over here it has all the information I need it seems like which is great so I'm pretty impressed with it similar to how a lot of government websites are set up over here it looks like I have found all the information I need it's a great website it has everything overall though it had more than enough information...
我做了:
这给了我类似的东西(实际上是一个 WordList):[okay so if I, so if I go, if I go just...]
然后结果如下所示:
有没有更好的方法来分析块中的非结构化文本而不是完整的成绩单?
这使得很难捕捉到网站的问题。更改 API 并不是一个真正的选择,因为我正在使用一些东西,这些东西是给我的,用作这个特定情绪分析问题的数据收集。
任何提示或建议将不胜感激,找不到任何人做类似的事情。