问题标签 [tidytext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1156 浏览

r - 使用 R 在数据中查找缩写词

在我的数据(即文本)中,有缩写。

是否有在文本中搜索缩写的函数或代码?例如,检测 3-4-5 大写字母缩写并让我计算它们发生的频率。

非常感激!

0 投票
0 回答
38 浏览

r - 您可以在没有导入或依赖项的情况下在 R 中安装包吗?

我在无法访问 Internet 的计算机上工作。我下载了我所有的 R 包并从 .zip 文件中安装它们。然而,一个问题是,当我安装一个包时,它将需要其他包,因为我将它们加载到库中。

例如,我下载了 QDAP,它说“在您下载并安装 rJava 之前无法加载”。使用几个不同的包多次发生这种情况。有没有办法避免这种情况?我不需要“wordcloud 包,但它要求我在使用 QDAP 之前安装它。

0 投票
2 回答
201 浏览

r - 随着时间的推移按组查找重复的句子/单词/短语

我有一个数据集,其中每一列都是一个变量,每一行是一个观察值(如时间序列数据。它看起来像这样(我为格式道歉,但我无法显示数据):

在此处输入图像描述

我想知道一个人或一个团体是否随着时间的推移在说同样的事情。我对 n-gram 很熟悉,但这并不是我所需要的。任何帮助,将不胜感激。 在此处输入图像描述

这是我想要的输出:

很抱歉所有的编辑差评;还是习惯了网站。

0 投票
2 回答
2373 浏览

r - 如何将 Dataframe 转换为 DTM

我想将我的表转换为 DTM 并维护元数据。

相同的数据

每行都应该是一个文档。但是为了使用 cast_dtm(),需要有一个计数变量。为了“投射”,它需要采用“文档、术语、计数”格式。

如何将我的数据转换为“文档、术语、计数”数据框?从那里,很容易转换成 DTM,然后做我需要的。

0 投票
2 回答
763 浏览

r - 将 cast_dtm 与大型语料库一起使用时出错

我正在使用 cast_dtm 命令将每文档每行一个术语的数据帧转换为文档术语矩阵,以用作 LDA 的输入。代码是:

它适用于包含 33,000 个文档的语料库,但在使用包含 147,242 个文档的语料库时会出现以下错误。

任何帮助表示赞赏!

编辑:标记化的数据框如下所示:

没有一列包含空值或 NA 值。

0 投票
1 回答
811 浏览

r - 用该字符串的一部分替换来自 tibble 的字符串

我在这里搜索了很多正则表达式答案,但找不到此类问题的解决方案。

我的数据集是一个带有维基百科链接的小标题:

我正在尝试从链接中清理我的文本。这个:

从括号中选择我需要的单词。

这个:

按预期工作,但不是我需要的。这个:

在我预期的地方给出错误"Berthold Speer was een Duits architect"

目前我的代码看起来像这样:

我希望有人知道一个解决方案,或者如果存在一个重复的问题,可以向我指出一个重复的问题。我想要的输出是"Berthold Speer was een Duits architect".

0 投票
1 回答
4330 浏览

r - unnest_tokens 及其错误(“”)

我正在使用 tidytext。当我命令 unnest_tokens 时。R返回错误

请提供列名

我该如何解决这个错误?

0 投票
1 回答
172 浏览

r - 整洁的数据框:德语字符被删除

我正在使用以下代码将数据框转换为整洁的数据框:

但是,这会产生一个整洁的数据框,其中德语字符 üäöß 从新创建的单词列中删除,例如,“wählen”变成两个词:“w”和“hlen”,并且删除了特殊字符。

我正在尝试获得一个整洁的德语单词数据框来进行文本分析和术语频率。

有人可以为我指出如何解决这个问题的正确方向吗?

0 投票
1 回答
165 浏览

tidy - tidy Error in eval(substitute(expr), envir, enclos) : binding not found: 'Var1'

When I apply the tidy function to the result of the LDA model in my dataset, I get the following error "Error in eval(substitute(expr), envir, enclos) : binding not found: 'Var1'". I get the same error when used on associated press example, as shown below. I tried reinstalling the tidytext via devtools::install_github("juliasilge/tidytext") and I still get the same result. Is there something else I can try?

library(tidyr) library(tidytext) library(tidyverse) library(topicmodels) library(Broom)

data("AssociatedPress") AssociatedPress

ap_lda <- LDA(AssociatedPress, k = 2, control = list(seed = 1234)) ap_lda

ap_topics <- tidy(ap_lda, matrix = "beta") ap_topics

<> Non-/sparse entries: 302031/23220327 Sparsity : 99% Maximal term length: 18 Weighting : term frequency (tf)

ap_lda <- LDA(AssociatedPress, k = 2, control = list(seed = 1234)) ap_lda A LDA_VEM topic model with 2 topics.

ap_topics <- tidy(ap_lda, matrix = "beta") Error in eval(substitute(expr), envir, enclos) : binding not found: 'Var1' ap_topics

0 投票
1 回答
539 浏览

r - 在 R 上安装 tidytext 时的依赖问题

我正在尝试在 OS X El Capitan(版本 10.11.6)上的 R 3.4.0 上安装 tidytext 包。但是这样做会在包 mnormt 中出现以下错误(我不理解 'm' 标志!):

我尝试安装 tidytextinstall.packages("tidytext")并且可能也安装devtools但没有成功也失败了broom -> psych -> mnormt

你知道如何解决这个问题吗?

谢谢!