问题标签 [tidytext]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

279 问题

0 投票

1 回答

7764 浏览

r - 从数据框中删除停用词

我的数据已经在一个数据框中，每行一个标记。我想过滤掉包含停用词的行。

数据框如下所示：

我尝试了以下方法，但出现错误：

错误：

我该如何解决这个问题？

r tidyr tidyverse tidytext

2017-11-16T17:54:12.127

0 投票

1 回答

1000 浏览

r - 将新词添加到 R 中的 Bing 情感词典

使用 R Studio 分析一些评论。我现在正在使用 tidytext 包中的 Bing Sentiment 词典。

我有一些额外的词要添加到 Bing（运行时或离线）。例如，我可以将它们添加为积极或消极或任何其他情绪的水平。我怎样才能做到这一点？

r rstudio tidytext

2017-11-20T01:20:24.330

0 投票

2 回答

5707 浏览

r - 从 R 中的数字和停用词中过滤文本（不适用于 tdm）

我有文本语料库。

如何过滤此文本？我必须删除：

我不会使用dtm，我只需要从数字和停用词中清除此文本数据

样本数据：

Jura,the是停用词。

在我期望的输出中

r tm tidytext

2017-12-01T14:58:45.160

0 投票

1 回答

5293 浏览

r - 使用字数将数据帧转换为 tibble

我正在尝试基于http://tidytextmining.com/sentiment.html#the-sentiments-dataset执行情绪分析。在执行情绪分析之前，我需要将我的数据集转换为整洁的格式。

我的数据集是形式：

为了将每行转换为一个观察值，需要处理文本列并添加包含单词和该 url 出现次数的新列。相同的 url 将出现在多行中。

这是我的尝试：

如何计算 res$text 数据框中的单词并维护 url 以执行情感分析？

更新：

返回错误：

我正在尝试转换为 tibble，因为这似乎是 tidytextmining 情绪分析所需的格式：http: //tidytextmining.com/sentiment.html#the-sentiments-dataset

r dataframe tibble tidytext

2017-12-02T23:23:47.867

0 投票

1 回答

518 浏览

r - R中tidytext的情感分析

我正在尝试在 R 中执行情绪分析。我想使用 afinn 或 bing 词典，但问题是我无法标记单词。

以下是我需要感悟的词：

所以有 6 个词我想要表达： Pass Fail Not Ready Out of Business Pass w/conditions No entry

我如何使用任何词典来为这些词分配情绪

这是我的代码：

当运行这个我得到：

因为词典要分配情感，每行必须有一个标记

所以我不得不把这些词合并在一起。现在，当我使用 afinn 时，它无法理解什么是 outofbusiness 是显而易见的

我如何对这 6 个单词进行情感分析？

r text-mining sentiment-analysis tidyverse tidytext

2017-12-03T22:01:15.193

0 投票

1 回答

1692 浏览

r - 使用 unnest_tokens() 按特定字符拆分列？

我正在使用一列格式化为字符串的 url 向量，每个 url 用逗号分隔：

column_with_urls

[“url.a，url.b，url.c”]

[“url.d，url.e，url.f”]

我想使用tidytext::unnest_tokens()R 函数将它们分成每行一个 url（尽管我对其他最好基于 R 的解决方案持开放态度）。我在这里阅读了文档的文档，但我不知道是否可以/建议输入单个字符进行拆分。

我的想法是这样的unnest_tokens(url, column_with_urls, by = ',')。有没有办法指定这种论点和/或解决这个问题的更好方法？

我想要的输出是一个数据框，每行有一个 url，如下所示（以及复制到每一行的原始行的所有其他数据）：

网址

网址.a

网址.b

网址.c

...

提前致谢。

r tidytext

2017-12-05T18:22:00.903

0 投票

4 回答

679 浏览

r - tidytext::unnest_tokens 是否适用于西班牙语字符？

我正在尝试将 unnest_tokens 与西班牙语文本一起使用。它适用于 unigrams，但会用 bigrams 打破特殊字符。

该代码在 Linux 上运行良好。我添加了一些关于语言环境的信息。

r tidytext

2017-12-08T13:55:50.733

0 投票

1 回答

135 浏览

r - 使用文本分析 inner_join 删除 R 中的一千多个单词

我正在分析数据框中包含单词的列most_used_words。2180字。

当我inner_join使用 AFINN 词典时，2180 个单词中只有 364 个被评分。这是因为 AFINN 词典中的单词没有出现在我的数据框中吗？如果是这样的话，我很害怕这可能会在我的分析中引入偏见。我应该使用不同的词典吗？还有其他事情正在发生吗？

r tidyverse text-analysis tidytext lexicon

2017-12-09T15:06:23.070

0 投票

1 回答

1090 浏览

r - unnest_tokens 无法使用 tidytext 包处理 R 中的向量

我想使用该tidytext包创建一个带有“ngrams”的列。使用以下代码：

但是当我运行它时，我收到以下错误消息：

我的text专栏由许多推文组成，其中的行如下所示，并且具有类字符。

- - - - -更新： - - - - -

看起来sentimetrorexploratory包引起了冲突。我在没有这些的情况下重新加载了我的包，现在它又可以工作了！

r text-analysis tidytext

2017-12-20T16:14:52.293

0 投票

1 回答

1207 浏览

r - 使用 Tidytext 进行文本挖掘：问题 pairwise_count 和 pairwise_cor

我正在尝试使用 Tidytext（使用 R 进行文本挖掘），我想使用 widyr 库中的函数 pairwise_count 和 pairwise_cor。我的语料库来自按处理的文本文件。

我想，我没有得到正确的结果，因为语料库包含多个短语，如“spiegel online”或“spiegel plus”短语，但这些没有出现在结果表中：

有人在这里吗，谁能给我一个提示，好吗？

关于托比亚斯

r text-mining tidytext

2017-12-29T18:15:44.020

1 2 3 4 5 6 7 8 9 10

问题标签 [tidytext]

Reference