问题标签 [tidytext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
7764 浏览

r - 从数据框中删除停用词

我的数据已经在一个数据框中,每行一个标记。我想过滤掉包含停用词的行。

数据框如下所示:

我尝试了以下方法,但出现错误:

错误:

我该如何解决这个问题?

0 投票
1 回答
1000 浏览

r - 将新词添加到 R 中的 Bing 情感词典

使用 R Studio 分析一些评论。我现在正在使用 tidytext 包中的 Bing Sentiment 词典。

我有一些额外的词要添加到 Bing(运行时或离线)。例如,我可以将它们添加为积极或消极或任何其他情绪的水平。我怎样才能做到这一点?

0 投票
2 回答
5707 浏览

r - 从 R 中的数字和停用词中过滤文本(不适用于 tdm)

我有文本语料库。

如何过滤此文本?我必须删除:

我不会使用dtm,我只需要从数字和停用词中清除此文本数据

样本数据:

Jura,the是停用词。

在我期望的输出中

0 投票
1 回答
5293 浏览

r - 使用字数将数据帧转换为 tibble

我正在尝试基于http://tidytextmining.com/sentiment.html#the-sentiments-dataset执行情绪分析。在执行情绪分析之前,我需要将我的数据集转换为整洁的格式。

我的数据集是形式:

为了将每行转换为一个观察值,需要处理文本列并添加包含单词和该 url 出现次数的新列。相同的 url 将出现在多行中。

这是我的尝试:

返回:

如何计算 res$text 数据框中的单词并维护 url 以执行情感分析?

更新 :

返回错误:

我正在尝试转换为 tibble,因为这似乎是 tidytextmining 情绪分析所需的格式:http: //tidytextmining.com/sentiment.html#the-sentiments-dataset

0 投票
1 回答
518 浏览

r - R中tidytext的情感分析

我正在尝试在 R 中执行情绪分析。我想使用 afinn 或 bing 词典,但问题是我无法标记单词。

以下是我需要感悟的词:

情绪词

所以有 6 个词我想要表达: Pass Fail Not Ready Out of Business Pass w/conditions No entry

我如何使用任何词典来为这些词分配情绪

这是我的代码:

当运行这个我得到:

senti_new

因为词典要分配情感,每行必须有一个标记

所以我不得不把这些词合并在一起。现在,当我使用 afinn 时,它无法理解什么是 outofbusiness 是显而易见的

我如何对这 6 个单词进行情感分析?

0 投票
1 回答
1692 浏览

r - 使用 unnest_tokens() 按特定字符拆分列?

我正在使用一列格式化为字符串的 url 向量,每个 url 用逗号分隔:

column_with_urls

[“url.a,url.b,url.c”]

[“url.d,url.e,url.f”]

我想使用tidytext::unnest_tokens()R 函数将它们分成每行一个 url(尽管我对其他最好基于 R 的解决方案持开放态度)。我在这里阅读了文档的文档,但我不知道是否可以/建议输入单个字符进行拆分。

我的想法是这样的unnest_tokens(url, column_with_urls, by = ',')。有没有办法指定这种论点和/或解决这个问题的更好方法?

我想要的输出是一个数据框,每行有一个 url,如下所示(以及复制到每一行的原始行的所有其他数据):

网址

网址.a

网址.b

网址.c

...

提前致谢。

0 投票
4 回答
679 浏览

r - tidytext::unnest_tokens 是否适用于西班牙语字符?

我正在尝试将 unnest_tokens 与西班牙语文本一起使用。它适用于 unigrams,但会用 bigrams 打破特殊字符。

该代码在 Linux 上运行良好。我添加了一些关于语言环境的信息。

0 投票
1 回答
135 浏览

r - 使用文本分析 inner_join 删除 R 中的一千多个单词

我正在分析数据框中包含单词的列most_used_words。2180

当我inner_join使用 AFINN 词典时,2180 个单词中只有 364 个被评分。这是因为 AFINN 词典中的单词没有出现在我的数据框中吗?如果是这样的话,我很害怕这可能会在我的分析中引入偏见。我应该使用不同的词典吗?还有其他事情正在发生吗?

0 投票
1 回答
1090 浏览

r - unnest_tokens 无法使用 tidytext 包处理 R 中的向量

我想使用该tidytext包创建一个带有“ngrams”的列。使用以下代码:

但是当我运行它时,我收到以下错误消息:

我的text专栏由许多推文组成,其中的行如下所示,并且具有类字符。

- - - - -更新: - - - - -

看起来sentimetrorexploratory包引起了冲突。我在没有这些的情况下重新加载了我的包,现在它又可以工作了!

0 投票
1 回答
1207 浏览

r - 使用 Tidytext 进行文本挖掘:问题 pairwise_count 和 pairwise_cor

我正在尝试使用 Tidytext(使用 R 进行文本挖掘),我想使用 widyr 库中的函数 pairwise_count 和 pairwise_cor。我的语料库来自按处理的文本文件。

我想,我没有得到正确的结果,因为语料库包含多个短语,如“spiegel online”或“spiegel plus”短语,但这些没有出现在结果表中:

有人在这里吗,谁能给我一个提示,好吗?

关于托比亚斯