问题标签 [lexicon]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
668 浏览

python - 如何将词典应用于句子列表?

我有一个这种形状的词典

我想创建一个新列表,其中包含基于词典添加每个单词的分数的每个句子的分数,如果没有单词存在,则在我实现我的代码时添加零,我len(lex_score) = 3679在添加 elif 条件后得到len(lex_score) = 95079

len(lex_score) 应该等于 6064

我想在包含每个句子分数的数据框中创建一个新列。我究竟做错了什么?有没有更好的方法呢?

0 投票
3 回答
631 浏览

r - 与 R 的字符串匹配:找到可能的最佳匹配

我有两个单词向量。

我需要在 Lexicon 和 Corpus 之间做出尽可能好的匹配。我尝试了很多方法。这是其中之一。

但是,比赛应该是:

相反,匹配的是我的词典中按字母顺序排列的第一个单词。顺便说一句,这些向量是我拥有的更大列表的样本。

我没有尝试使用 regex() 因为我不确定它是如何工作的。也许解决方案就是这样。

你能帮我解决这个问题吗?谢谢您的帮助。

0 投票
1 回答
135 浏览

r - 使用文本分析 inner_join 删除 R 中的一千多个单词

我正在分析数据框中包含单词的列most_used_words。2180

当我inner_join使用 AFINN 词典时,2180 个单词中只有 364 个被评分。这是因为 AFINN 词典中的单词没有出现在我的数据框中吗?如果是这样的话,我很害怕这可能会在我的分析中引入偏见。我应该使用不同的词典吗?还有其他事情正在发生吗?

0 投票
2 回答
125 浏览

python - Python:为循环后存储在变量中的每个单词打分

我有一个需要解决的案例,但我已经坚持了将近一个星期没有解决方案。情况就是这样。我有三个变量:

我想要做的是我想将变量“候选人”中的单词与“种子”中的单词配对,在推文上将它们循环在一起,并在循环后给变量“候选人”中的每个单词打分。

例如:对于我配对的第一个循环:

并将它们循环到变量“tweets”中的字符串上,并根据这些对在可变推文的句子中出现的次数给出分数。所以在这种情况下,我将得到的单词“you”与变量“seeds”中的所有单词配对的分数是 3。

并继续第二个循环,其中的对是:

并将它们再次循环到变量“tweets”中的字符串,并根据这些对在变量推文的句子中出现的次数给出分数。所以在这种情况下,我将得到的单词“you”与变量“seeds”中的所有单词配对的分数是 1。

我希望我的程序能够自动从变量“候选人”与变量“种子”中的单词配对返回每个单词的分数,并将它们一起循环到变量“推文”中的字符串。

上面是我创建的脚本来做我想做的事,但它没有按照我想要的方式工作。所以请有人知道如何解决我的这个问题吗?已经一个星期了,我还没有找到解决方案。

0 投票
2 回答
4416 浏览

r - R中的情绪分析(AFINN)

我正在尝试使用 AFINN 字典(get_sentiments(“afinn”))对推文数据集的情绪。下面提供了数据集的示例:

我想要做的是: 1. 将推文分成单独的单词。2. 使用 AFINN 词典对这些单词进行评分。3. 将每条推文的所有单词的得分相加 4. 将这个和返回到新的第三列,这样我就可以看到每条推文的得分。

对于类似的词典,我发现了以下代码:

但是,我无法调整此代码以使其与 afinn 字典一起使用。

0 投票
0 回答
780 浏览

r - r, textstem 包中的奇怪词形还原结果

我想使用 R 中的 textstem 包从单词的所有可能形式中获得引理“潜水”。

但是当我在r中使用textstem包时,基本形式变成了一个很奇怪的结果。

在这里,我不想将“dive”作为“dive”这个词的结果,而是需要将“dive”这个词词形还原为“dive”,这样它就可以和其他形式的“dived”算作同一个词, “潜水”。所以应该是这样的,如下。

我找到了这个链接(tm 包中的 stemDocment 不适用于过去时词),但在我的情况下它可能没有用,因为我必须处理超过 80,000 条评论,而且我很可能会遇到不同单词的相同问题.

lemmatize_strings用于我拥有的数据集,但它给出了完全相同的结果(虽然它有点明显)。谁能帮帮我吗?

非常感谢您!

0 投票
2 回答
1214 浏览

python - 用于情感分析的 Python VADER 词典结构

我正在使用 Python 的 nltk 库中的 VADER 情感词典来分析文本情感。这个词典不太适合我的领域,所以我想将我自己的情感分数添加到各种单词中。所以,我得到了词典文本文件(vader_lexicon.txt)来做到这一点。但是,我不太了解该文件的体系结构。例如,像 obliterate 这样的词在文本文件中会有以下数据: obliterate -2.9 0.83066 [-3, -4, -3, -3, -3, -3, -2, -1, -4, - 3]

显然,-2.9 是列表中情绪得分的平均值。但是 0.83066 代表什么?

谢谢!

0 投票
1 回答
132 浏览

java - 当我运行功能文件并收到错误时,我已经设置了所有基本插件和驱动程序

我从 Itellij IDEA 运行这个。

我有必要的插件和驱动程序,但无法弄清楚为什么会出现此错误。

在此处输入图像描述

请在图片中找到代码

在此处输入图像描述

0 投票
1 回答
242 浏览

nlp - 句子与文档级别分析的最佳词典

文档级和句子级分析的最佳词典是什么?我目前正在使用 Vader 进行句子级别的分析,但是我担心当我转到文档级别时,Vader 的性能可能不如其他人。

与此处的帖子类似的问题,但更具体。

0 投票
1 回答
1138 浏览

python - NLTK 的 Vader 评分文本示例

我希望有人纠正我对 VADER 如何对文本进行评分的理解。我在这里阅读了这个过程的解释,但是在重新创建它描述的过程时,我无法将测试句子的复合分数与 Vader 的输出相匹配。假设我们有这句话:

VADER 选择的词是“喜欢”(+1.5 分)和“有趣”(+2.3)。根据文档,将这些值相加(因此 +3.8),然后使用以下函数将其归一化为 0 到 1 之间的范围:

根据我们的数字,这应该变成:

然而,VADER 会输出返回的复合分数,如下所示:

我的推理哪里出错了?类似的问题已被多次提出,但尚未提供 VADER 分类的实际示例。任何帮助,将不胜感激。