问题标签 [tidytext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 使用 R 在数据中查找缩写词
在我的数据(即文本)中,有缩写。
是否有在文本中搜索缩写的函数或代码?例如,检测 3-4-5 大写字母缩写并让我计算它们发生的频率。
非常感激!
r - 您可以在没有导入或依赖项的情况下在 R 中安装包吗?
我在无法访问 Internet 的计算机上工作。我下载了我所有的 R 包并从 .zip 文件中安装它们。然而,一个问题是,当我安装一个包时,它将需要其他包,因为我将它们加载到库中。
例如,我下载了 QDAP,它说“在您下载并安装 rJava 之前无法加载”。使用几个不同的包多次发生这种情况。有没有办法避免这种情况?我不需要“wordcloud 包,但它要求我在使用 QDAP 之前安装它。
r - 将 cast_dtm 与大型语料库一起使用时出错
我正在使用 cast_dtm 命令将每文档每行一个术语的数据帧转换为文档术语矩阵,以用作 LDA 的输入。代码是:
它适用于包含 33,000 个文档的语料库,但在使用包含 147,242 个文档的语料库时会出现以下错误。
任何帮助表示赞赏!
编辑:标记化的数据框如下所示:
没有一列包含空值或 NA 值。
r - 用该字符串的一部分替换来自 tibble 的字符串
我在这里搜索了很多正则表达式答案,但找不到此类问题的解决方案。
我的数据集是一个带有维基百科链接的小标题:
我正在尝试从链接中清理我的文本。这个:
从括号中选择我需要的单词。
这个:
按预期工作,但不是我需要的。这个:
在我预期的地方给出错误"Berthold Speer was een Duits architect"
目前我的代码看起来像这样:
我希望有人知道一个解决方案,或者如果存在一个重复的问题,可以向我指出一个重复的问题。我想要的输出是"Berthold Speer was een Duits architect"
.
r - unnest_tokens 及其错误(“”)
我正在使用 tidytext。当我命令 unnest_tokens 时。R返回错误
请提供列名
我该如何解决这个错误?
r - 整洁的数据框:德语字符被删除
我正在使用以下代码将数据框转换为整洁的数据框:
但是,这会产生一个整洁的数据框,其中德语字符 üäöß 从新创建的单词列中删除,例如,“wählen”变成两个词:“w”和“hlen”,并且删除了特殊字符。
我正在尝试获得一个整洁的德语单词数据框来进行文本分析和术语频率。
有人可以为我指出如何解决这个问题的正确方向吗?
tidy - tidy Error in eval(substitute(expr), envir, enclos) : binding not found: 'Var1'
When I apply the tidy function to the result of the LDA model in my dataset, I get the following error "Error in eval(substitute(expr), envir, enclos) : binding not found: 'Var1'". I get the same error when used on associated press example, as shown below. I tried reinstalling the tidytext via devtools::install_github("juliasilge/tidytext") and I still get the same result. Is there something else I can try?
library(tidyr) library(tidytext) library(tidyverse) library(topicmodels) library(Broom)
data("AssociatedPress") AssociatedPress
ap_lda <- LDA(AssociatedPress, k = 2, control = list(seed = 1234)) ap_lda
ap_topics <- tidy(ap_lda, matrix = "beta") ap_topics
<> Non-/sparse entries: 302031/23220327 Sparsity : 99% Maximal term length: 18 Weighting : term frequency (tf)
ap_lda <- LDA(AssociatedPress, k = 2, control = list(seed = 1234)) ap_lda A LDA_VEM topic model with 2 topics.
ap_topics <- tidy(ap_lda, matrix = "beta") Error in eval(substitute(expr), envir, enclos) : binding not found: 'Var1' ap_topics
r - 在 R 上安装 tidytext 时的依赖问题
我正在尝试在 OS X El Capitan(版本 10.11.6)上的 R 3.4.0 上安装 tidytext 包。但是这样做会在包 mnormt 中出现以下错误(我不理解 'm' 标志!):
我尝试安装 tidytextinstall.packages("tidytext")
并且可能也安装devtools
但没有成功也失败了broom -> psych -> mnormt
。
你知道如何解决这个问题吗?
谢谢!