问题标签 [sentiment-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - lingPipe - 情绪分析
我正在使用 LingPipe 进行情绪分析。我正在尝试从 LingPipe 运行示例文件,该文件在构造函数中给出错误 -
// 其他方法..
}
创建 mClassifier 给出错误:con 找不到符号构造函数 DynamicLMClassifier(String[],int,boolean)..
我不知道这个类的构造函数语法,我刚刚添加了 .jar 文件。
而且在程序中我也找不到在哪里传递要分析的文本。有谁知道如何消除这个错误。谢谢你。
nlp - 情感分析 - wordNet , sentiWordNet lexicon
我需要一个积极和消极的单词列表,并根据它们的强度和周数分配给单词的权重。我有 :
1.) WordNet - 它为每个单词提供 + 或 - 分数。
2.) SentiWordNet - 在 [0,1] 范围内给出正值和负值。
我用几句话检查了这些,
爱 - wordNet 对名词和动词都给出 0.0,我不知道为什么我认为它至少在某些因素上应该是积极的。
repress - wordNet 给出 -9.93
- SentiWordNet 给出 - pos 和 neg 的 0.0。(应该是负数)
休息 - wordNet - 2.488
- SentiWordNet - { pos - 0.125, neg - 0.5 } (应该是积极的)
我需要一些帮助来决定使用哪一个。
谢谢。
twitter - 用于对群体进行分类的情绪分析工具
我正在做一个机器学习项目,我正处于进展的第一阶段。我正在提取功能并测试要使用或不使用的功能。我有一个由 2 个类组成的数据集。我想检查情绪和作为其中任何一个群体之间是否存在关系。我的数据如下所示:
如何找到情绪和群体之间的相关性?因为这是我项目的功能选择部分,所以我可以使用任何工具而不是手动实现它。WEKA、PRTools 或任何其他工具,如果您能告诉我如何操作,欢迎您。
PS:实际上在实现算法之前,我想检查是否可以得到类似的东西:
即 group_a 比 group_b 更负面
所以在我的测试数据中,当我得到一个句子时,我可以说如果它是一个负面情绪句子,它可能与 group_a 有关
hadoop - Hive: How to have a derived column that has stores the sentiment value from the sentiment analysis API
Here's the scenario:
Say you have a Hive Table that stores twitter data.
Say it has 5 columns. One column being the Text Data.
Now How do you add a 6th column that stores the sentiment value from the Sentiment Analysis of the twitter Text data. I plan to use the Sentiment Analysis API like Sentiment140 or viralheat.
I would appreciate any tips on how to implement the "derived" column in Hive.
Thanks.
r - 将新词添加到 R 情感包的词典
我目前正在使用 R 情感包对 Twitter 的数据进行情感和情感分析,并且需要在包使用的主观性和情感词典中添加新词,因为在我分析的主题中有一些带有特定情感和情感的词。
有谁知道如何使用 R 情感包本身或任何其他 R 命令将单词添加到词典中?我在文档中进行了搜索,但找不到任何方法。
r - 计算R中混淆矩阵的准确度和精度
是否有任何工具/R 包可用于计算 R 中混淆矩阵的准确性和精度?
python - 文本分类的特征选择和减少
我目前正在做一个项目,一个简单的情绪分析器,这样在不同的情况下会有2 个和 3 个类。我正在使用一个包含非常丰富的独特单词(大约 200.000)的语料库。我使用词袋方法进行特征选择并减少独特特征的数量,由于出现频率的阈值而进行了消除。最终的特征集包括大约 20.000 个特征,实际上减少了 90%,但还不够用于测试预测的预期准确性。我依次使用LibSVM和SVM-light进行训练和预测(包括线性和RBF 内核)以及一般的Python和Bash。
到目前为止观察到的最高准确度约为 75%,我至少需要 90%。这是二进制分类的情况。对于多类训练,准确率下降到~60%。在这两种情况下我都需要至少 90%并且不知道如何增加它:通过优化训练参数或通过优化特征选择?
我读过关于文本分类中特征选择的文章,我发现使用了三种不同的方法,它们之间实际上有明显的相关性。这些方法如下:
- 词袋的频率方法(BOW)
- 信息增益(IG)
- X^2 统计量 (CHI)
第一种方法我已经在用了,但是我用的很简单,需要指导才能更好地使用它,以获得足够高的精度。我也缺乏关于IG和CHI实际实施的知识,并寻求任何帮助来指导我。
非常感谢,如果您需要任何其他信息以寻求帮助,请告诉我。
@larsmans:频率阈值:我正在寻找示例中唯一单词的出现,这样如果一个单词在不同示例中出现的频率足够高,它就会作为唯一特征包含在特征集中。
@TheManWithNoName:首先感谢您为解释文档分类的一般问题所做的努力。我检查并试验了你提出的所有方法和其他方法。我发现比例差(PD) 方法最适合特征选择,其中特征是 uni-grams 和用于加权的术语存在(TP ) IDF)作为一种索引方法,我宁愿将其视为一种特征加权方法)。 正如您所提到的,预处理也是此任务的一个重要方面。我使用某些类型的字符串消除来优化数据以及形态解析和词干。另请注意,我正在研究土耳其语,与英语相比,它具有不同的特征。最后,对于二元分类,我设法达到了~88% 的准确度(f-measure),对于多类,我达到了~84%。这些值是我使用的模型成功的有力证明。这是我到目前为止所做的。现在致力于聚类和缩减模型,已经尝试过LDA和LSI,并转向moVMF和球形模型(LDA + moVMF),这似乎更适用于具有客观性质的语料库,如新闻语料库。如果您对这些问题有任何信息和指导,我将不胜感激。我特别需要信息来设置特征空间降维方法(LDA、LSI、moVMF 等)和聚类方法(k-means、分层等)之间的接口(面向 python、开源)。
r - 在 R 中查找“近乎重复”的字符串
我正在使用 R 构建情绪分析工具,但我遇到了一些重复问题。数据的主要来源是 Twitter,看起来很多人通过在每条推文的末尾添加一些随机文本来绕过 twitter 自己的垃圾邮件过滤器。例如
我得到了大量的确切推文,最后带有不同的随机字符串。它们要么来自同一个用户,要么来自不同的用户。
是否有任何类似duplicated
或unique
返回 2 个字符串的接近程度以及它们是否高于某个百分比的函数?
我知道这样做最终会删除那些说完全相同的人的真实推文,比如
但我会在未来处理这个问题。
任何正确方向的提示将不胜感激!
sentiment-analysis - 语义分析开源工具 - 需要的建议
我有一个书评网站,读者可以在其中撰写有关书籍的评论,其他用户可以发表评论。每当发布新评论或发布新评论时,我想自动了解以下内容。
(1) 书评是否正面?多少百分比的正面/负面?
(2) 特定用户的评论是否正面?多少百分比的正面/负面?
(3) 我想阅读关于特定书籍的推文并想检查推文是否是正面的?
最重要的是,我想要一些工具建议(开源),我可以将其用于我的网站。网站是用 PHP 编写的,我正在寻找一些可以定制以满足我的需要或最适合我的需要的语义分析工具。
如果没有,我想知道它是否容易以最低要求构建一个。我知道 PHP、Perl、Shell 脚本。我可以学习 Python。我知道 C++,Java 可能是从头开始的正确语言;但没有太多经验。
python - 情绪分析/线性回归 (Django)
我需要关于如何分析此类数据的建议。我想作为机器学习工具对其进行情感分析或线性回归。预测器是分数。
我可以在 WEKA 中运行一个 LinearRegression 分类器,它会产生:
但是,我想在 Django 中为 Web 应用程序实现这一点。是否有另一种方法来处理这些数据并产生不使用 WEKA 的线性回归方程。除了线性回归之外,还有其他关于如何分析它的建议吗?我已经实现了一个决策树。