问题标签 [qdap]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
699 浏览

r - 从 R 中的 qdap 包结果中获取 all.polarity 值

数据框结果截图我想使用 qdap 包在 R 中进行情感分析。它给出了一个包含 all.all、all.wc、all.polarity、all.pos.words、all.neg.words 等的数据框。

我想提取 all.polarity、all.pos.words、all.neg.words 的值,但是当我使用 Sentiment$all.polarity 或 Sentiment$all.pos.words 时,

我得到 NULL 结果。

输入(头部(情绪))

谁能建议如何做到这一点?

0 投票
0 回答
1013 浏览

r - R 库(qdap)安装错误

我在安装 qdap 库时遇到困难,见下文:

我先安装Java库,然后安装qdap库:Sys.setenv(JAVA_HOME='C:\Program Files (x86)\Java\jre7') library(rJava)

然后是 devtools 库:

qdap 之前的其他安装正常,但在 qdap 生成此错误:

install_github("trinker/qdap") 下载 github repo trinker/qdap@master 安装 qdap 在 CRAN 之前跳过 3 个包:qdapDictionaries, qdapRegex, qdapTools "C:/PROGRA~1/R/R-32~1.1/bin/x64/ R" --no-site-file --no-environ --no-save --no-restore \ CMD INSTALL \ "C:/Users/Seema/AppData/Local/Temp/RtmpMdVHCQ/devtools101432a84788/trinker-qdap- 85cbe87" \ --library="C:/Users/Seema/Documents/R/win-library/3.2" --install-tests

  • 安装包'qdap' ... ** R ** 数据 *** 将数据集移动到延迟加载数据库 ** inst ** 测试 ** 为延迟加载准备包 VM 初始化期间发生错误无法加载本机库:Can' t 查找依赖库错误:命令失败 (1)

它在寻找什么依赖库?任何帮助高度赞赏。

0 投票
0 回答
252 浏览

r - 如何将 ngrams 函数与 qdap 包中的 freq_terms 集成?

我喜欢 qdap freq_terms 函数。它非常简单,并且至少在大多数情况下完全符合我的需要。但是,在某些情况下,freq_terms 函数还不够。对于文本分析,我需要二元频率数据框而不是词频数据框。我想知道是否有可能以某种方式将 ngrams 函数与 freq_terms 函数集成。我还没弄清楚怎么做。

有人有想法吗?非常感谢您!

理想情况下,它会像这样工作:

我知道我不是那样工作的,但是还有其他方法可以达到相同的结果吗?

0 投票
0 回答
180 浏览

r - r tm 使用 foreach 确定并行文档的极性

我是 r tm 编码世界的新手,我正在尝试在使用 foreach %dopar% 循环时并行处理一个大型文本数据帧(因为我发现这更快)。但是,我并不真正了解它是如何工作的,如何将我的初始 for 循环转换为并行 foreach 循环。

特别是,我想确定我的数据集的极性,而我需要许多不同的polarity.frames(WORDKEY) 的分数。结果应传递给汇总数据帧(frequency_w)。到目前为止,我的 for 循环代码如下所示(适用于较小的样本):

主要问题是到目前为止的代码需要永远在我的整个数据库(80.000 文档)中运行,因此如果您在编码方面有任何其他建议,以减少内存使用或提高速度,我会很高兴。

此外,由于我需要运行 sentSplit 来使用极性函数,如果有人知道如何为我的整个数据集提高该过程的速度,甚至将其包含到循环中,我也会很高兴。

非常感谢您提前提供的帮助!

0 投票
1 回答
706 浏览

regex - 使用带有单词边界的 mgsub 函数来替换值

我正在尝试用空格替换向量中字符串元素的子字符串。以下是我们正在考虑的向量:

然后,如果我们按mgsub原样应用该函数,我们将得到以下输出:

因此,我将列表更改为以下内容并重新执行:

我无法让单词边界正则表达式为这个函数工作。

0 投票
1 回答
656 浏览

r - checkForRemoteErrors(val) 中的 qdap check_spelling 错误:一个节点产生错误:参数暗示不同的行数

我一直遇到错误

尝试check_spellingqdap包装中使用时。提供的数字 3 和 0 与下面提供的数据相关,但这只是一个更大的拼写检查字符串的一个小样本,当我将更大的字符串传递给它以进行拼写检查和用作字典时,行号会有所不同。当它突然开始工作时,我偶尔会取得成功,但是一旦我尝试重复该过程,我就会再次遇到相同的错误。

我在使用该check_spelling_interactive()功能时也遇到了同样的错误。

我的理解是,我想用作拼写检查和字典的单词都应该在字符向量中。

我已经更新了我的qdap. 在 Windows 7 64、R Studio 版本 0.99.467、R 版本 3.2.1 上运行。

任何帮助将不胜感激,因为我正在为此脱发,而且我没有那么多多余的东西。

0 投票
1 回答
154 浏览

r - 从 R 中的 write.table 读取.table

我正在尝试qdap::multigsub解决气候事件类型列表中的一些拼写错误、拼写错误的名称、变体表达式和其他一些“异常”(是的,这是 NOAA 的风暴数据集,属于课程中的一项作业关于可重复研究的课程;尽管在作业中既不需要也不需要这种修复:这是我尽我所能!)。

所以我有名为“山洪”、“山洪”、“山洪”之类的事件,我想将它们全部归为一个名为“山洪”的关卡。所以我首先做的是:

每个向量的长度是 51,这是一个knitr赋值,所以为了保持它的可读性(边距列 = 80),我不得不使用类似的东西

这使得代码有点混乱。当然,我有完整的exprrepl向量,所以我希望将每一对(expr 和 repl)对应的值排成一行,这样代码的读者就会很轻松(这就是为什么dput不能在这里工作的原因:他们不对齐每对值)。

我试过这个:

但它失败了(我认为是因为print抛出不带引号的输出并且有一些两个词的 expr 或 repl)。我也试过

但它也不起作用(我认为因为write.table在引号之间输出每个项目,并且read.table发现太多引号无法处理)。

我想在我的 Rmarkdown 文件中有这样的内容:

我如何从我现在拥有的数据中实现这一目标?

dput数据框的前 5 行如下:

如果有任何其他方法可以替换错误/变体名称,我很高兴收到并试一试!

0 投票
1 回答
250 浏览

r - 如何将多个 qdap 转换链接在一起以在 R 中进行文本挖掘/情感(极性)分析

我有一个data.frame有周数,week和文本评论,text。我想将该week变量视为我的分组变量并对其进行一些基本的文本分析(例如qdap::polarity)。一些评论文本有多个句子;但是,我只关心本周的“整体”极性。

如何在运行之前将多个文本转换链接在一起qdap::polarity并遵守其警告消息?我能够将转换与 - 链接在一起tm::tm_map-tm::tm_reduce有什么可比的qdap吗?qdap::polarity在运行和/或之前预处理/转换此文本的正确方法是什么qdap::sentSplit

以下代码/可重现示例中的更多详细信息:

0 投票
2 回答
350 浏览

r - 计算通配符在文本中出现的次数(在 R 中)

我有一个常规词(“激活”)或通配符(“activat *”)的向量。我想要:

1)计算每个单词在给定文本中出现的次数(即,如果“激活”出现在文本中,“激活”频率将为 1)。

2) 计算每个单词通配符在文本中出现的次数(即,如果“激活”和“激活”出现在文本中,“激活*”频率将为 2)。

我能够实现(1),但不能实现(2)。有人可以帮忙吗?谢谢。

0 投票
2 回答
301 浏览

r - 计算文本中的单词(在 R 中):结果不可读

我正在使用Rtmqdap. 当我的向量 ( words) 只有几个词时,一切看起来都很好:

但是当我的向量 ( words) 有太多单词时,结果会变得乱码和不可读:


如何将结果显示在数据框/矩阵中,以便更轻松地阅读它们?


我尝试使用termco2matqdap库),它应该像这样“返回术语计数矩阵”(https://trinker.github.io/qdap/termco.html)(请参见下文),但我得到一个错误:

或者: