问题标签 [tidytext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 从数据框中删除停用词
我的数据已经在一个数据框中,每行一个标记。我想过滤掉包含停用词的行。
数据框如下所示:
我尝试了以下方法,但出现错误:
错误:
我该如何解决这个问题?
r - 将新词添加到 R 中的 Bing 情感词典
使用 R Studio 分析一些评论。我现在正在使用 tidytext 包中的 Bing Sentiment 词典。
我有一些额外的词要添加到 Bing(运行时或离线)。例如,我可以将它们添加为积极或消极或任何其他情绪的水平。我怎样才能做到这一点?
r - 从 R 中的数字和停用词中过滤文本(不适用于 tdm)
我有文本语料库。
如何过滤此文本?我必须删除:
我不会使用dtm
,我只需要从数字和停用词中清除此文本数据
样本数据:
Jura,the
是停用词。
在我期望的输出中
r - 使用字数将数据帧转换为 tibble
我正在尝试基于http://tidytextmining.com/sentiment.html#the-sentiments-dataset执行情绪分析。在执行情绪分析之前,我需要将我的数据集转换为整洁的格式。
我的数据集是形式:
为了将每行转换为一个观察值,需要处理文本列并添加包含单词和该 url 出现次数的新列。相同的 url 将出现在多行中。
这是我的尝试:
返回:
如何计算 res$text 数据框中的单词并维护 url 以执行情感分析?
更新 :
返回错误:
我正在尝试转换为 tibble,因为这似乎是 tidytextmining 情绪分析所需的格式:http: //tidytextmining.com/sentiment.html#the-sentiments-dataset
r - 使用 unnest_tokens() 按特定字符拆分列?
我正在使用一列格式化为字符串的 url 向量,每个 url 用逗号分隔:
column_with_urls
[“url.a,url.b,url.c”]
[“url.d,url.e,url.f”]
我想使用tidytext::unnest_tokens()
R 函数将它们分成每行一个 url(尽管我对其他最好基于 R 的解决方案持开放态度)。我在这里阅读了文档的文档,但我不知道是否可以/建议输入单个字符进行拆分。
我的想法是这样的unnest_tokens(url, column_with_urls, by = ',')
。有没有办法指定这种论点和/或解决这个问题的更好方法?
我想要的输出是一个数据框,每行有一个 url,如下所示(以及复制到每一行的原始行的所有其他数据):
网址
网址.a
网址.b
网址.c
...
提前致谢。
r - tidytext::unnest_tokens 是否适用于西班牙语字符?
我正在尝试将 unnest_tokens 与西班牙语文本一起使用。它适用于 unigrams,但会用 bigrams 打破特殊字符。
该代码在 Linux 上运行良好。我添加了一些关于语言环境的信息。
r - 使用文本分析 inner_join 删除 R 中的一千多个单词
我正在分析数据框中包含单词的列most_used_words
。2180字。
当我inner_join
使用 AFINN 词典时,2180 个单词中只有 364 个被评分。这是因为 AFINN 词典中的单词没有出现在我的数据框中吗?如果是这样的话,我很害怕这可能会在我的分析中引入偏见。我应该使用不同的词典吗?还有其他事情正在发生吗?
r - unnest_tokens 无法使用 tidytext 包处理 R 中的向量
我想使用该tidytext
包创建一个带有“ngrams”的列。使用以下代码:
但是当我运行它时,我收到以下错误消息:
我的text
专栏由许多推文组成,其中的行如下所示,并且具有类字符。
- - - - -更新: - - - - -
看起来sentimetr
orexploratory
包引起了冲突。我在没有这些的情况下重新加载了我的包,现在它又可以工作了!
r - 使用 Tidytext 进行文本挖掘:问题 pairwise_count 和 pairwise_cor
我正在尝试使用 Tidytext(使用 R 进行文本挖掘),我想使用 widyr 库中的函数 pairwise_count 和 pairwise_cor。我的语料库来自按处理的文本文件。
我想,我没有得到正确的结果,因为语料库包含多个短语,如“spiegel online”或“spiegel plus”短语,但这些没有出现在结果表中:
有人在这里吗,谁能给我一个提示,好吗?
关于托比亚斯