问题标签 [lexicon]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何将词典应用于句子列表?
我有一个这种形状的词典
我想创建一个新列表,其中包含基于词典添加每个单词的分数的每个句子的分数,如果没有单词存在,则在我实现我的代码时添加零,我len(lex_score) = 3679
在添加 elif 条件后得到len(lex_score) = 95079
len(lex_score) 应该等于 6064
我想在包含每个句子分数的数据框中创建一个新列。我究竟做错了什么?有没有更好的方法呢?
r - 与 R 的字符串匹配:找到可能的最佳匹配
我有两个单词向量。
我需要在 Lexicon 和 Corpus 之间做出尽可能好的匹配。我尝试了很多方法。这是其中之一。
但是,比赛应该是:
相反,匹配的是我的词典中按字母顺序排列的第一个单词。顺便说一句,这些向量是我拥有的更大列表的样本。
我没有尝试使用 regex() 因为我不确定它是如何工作的。也许解决方案就是这样。
你能帮我解决这个问题吗?谢谢您的帮助。
r - 使用文本分析 inner_join 删除 R 中的一千多个单词
我正在分析数据框中包含单词的列most_used_words
。2180字。
当我inner_join
使用 AFINN 词典时,2180 个单词中只有 364 个被评分。这是因为 AFINN 词典中的单词没有出现在我的数据框中吗?如果是这样的话,我很害怕这可能会在我的分析中引入偏见。我应该使用不同的词典吗?还有其他事情正在发生吗?
python - Python:为循环后存储在变量中的每个单词打分
我有一个需要解决的案例,但我已经坚持了将近一个星期没有解决方案。情况就是这样。我有三个变量:
我想要做的是我想将变量“候选人”中的单词与“种子”中的单词配对,在推文上将它们循环在一起,并在循环后给变量“候选人”中的每个单词打分。
例如:对于我配对的第一个循环:
并将它们循环到变量“tweets”中的字符串上,并根据这些对在可变推文的句子中出现的次数给出分数。所以在这种情况下,我将得到的单词“you”与变量“seeds”中的所有单词配对的分数是 3。
并继续第二个循环,其中的对是:
并将它们再次循环到变量“tweets”中的字符串,并根据这些对在变量推文的句子中出现的次数给出分数。所以在这种情况下,我将得到的单词“you”与变量“seeds”中的所有单词配对的分数是 1。
我希望我的程序能够自动从变量“候选人”与变量“种子”中的单词配对返回每个单词的分数,并将它们一起循环到变量“推文”中的字符串。
上面是我创建的脚本来做我想做的事,但它没有按照我想要的方式工作。所以请有人知道如何解决我的这个问题吗?已经一个星期了,我还没有找到解决方案。
r - R中的情绪分析(AFINN)
我正在尝试使用 AFINN 字典(get_sentiments(“afinn”))对推文数据集的情绪。下面提供了数据集的示例:
我想要做的是: 1. 将推文分成单独的单词。2. 使用 AFINN 词典对这些单词进行评分。3. 将每条推文的所有单词的得分相加 4. 将这个和返回到新的第三列,这样我就可以看到每条推文的得分。
对于类似的词典,我发现了以下代码:
但是,我无法调整此代码以使其与 afinn 字典一起使用。
r - r, textstem 包中的奇怪词形还原结果
我想使用 R 中的 textstem 包从单词的所有可能形式中获得引理“潜水”。
但是当我在r中使用textstem包时,基本形式变成了一个很奇怪的结果。
在这里,我不想将“dive”作为“dive”这个词的结果,而是需要将“dive”这个词词形还原为“dive”,这样它就可以和其他形式的“dived”算作同一个词, “潜水”。所以应该是这样的,如下。
我找到了这个链接(tm 包中的 stemDocment 不适用于过去时词),但在我的情况下它可能没有用,因为我必须处理超过 80,000 条评论,而且我很可能会遇到不同单词的相同问题.
我lemmatize_strings
用于我拥有的数据集,但它给出了完全相同的结果(虽然它有点明显)。谁能帮帮我吗?
非常感谢您!
python - 用于情感分析的 Python VADER 词典结构
我正在使用 Python 的 nltk 库中的 VADER 情感词典来分析文本情感。这个词典不太适合我的领域,所以我想将我自己的情感分数添加到各种单词中。所以,我得到了词典文本文件(vader_lexicon.txt)来做到这一点。但是,我不太了解该文件的体系结构。例如,像 obliterate 这样的词在文本文件中会有以下数据: obliterate -2.9 0.83066 [-3, -4, -3, -3, -3, -3, -2, -1, -4, - 3]
显然,-2.9 是列表中情绪得分的平均值。但是 0.83066 代表什么?
谢谢!
java - 当我运行功能文件并收到错误时,我已经设置了所有基本插件和驱动程序
我从 Itellij IDEA 运行这个。
我有必要的插件和驱动程序,但无法弄清楚为什么会出现此错误。
请在图片中找到代码
nlp - 句子与文档级别分析的最佳词典
文档级和句子级分析的最佳词典是什么?我目前正在使用 Vader 进行句子级别的分析,但是我担心当我转到文档级别时,Vader 的性能可能不如其他人。
与此处的帖子类似的问题,但更具体。