问题标签 [qdap]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
210 浏览

r - R tm/qdap - Get document based on term

I'm trying to figure out how I could identify documents (tweets in this case) based on a term they may include.

Say I have this data frame (df), which is composed of a list of the screen name of Twitter users and one of their tweets.

Well, within this data frame I would like to get the tweets that include a certain term -say "tweet"- and extract those in to a new data frame (df2) like so:

I assume there must be a way to do it using the tm or qdap packages. But could not find anything and so ended up with this mess;

After cleaning the corpus I convert to termDocumentMatrix

I then identify in which row of the Term Document Matrix the term I am interested in is

Subset - if term has been mentioned more than once

Get document number (row number)

Create new data frames where t.tw - only including tweets mentioning term and t.o - other tweets

Thanks for your help.

Apologies if the horrendous piece of code above has offended any accomplished R users.

0 投票
1 回答
1166 浏览

r - R中的(快速)词频矩阵

我正在编写一个 R 程序,该程序涉及分析大量非结构化文本数据并创建词频矩阵。我一直在使用包中的wfmandwfdf函数qdap,但注意到这对于我的需求来说有点慢。看来词频矩阵的产生是瓶颈。

我的函数的代码如下。

我意识到 for 循环效率低下,因此为了定位瓶颈,我在没有这部分代码的情况下对其进行了测试(简单地读取每个文本文件并生成词频矩阵),并且几乎没有看到速度改进。例子:

输入文件是 Twitter 和 Facebook 状态发布。

有什么办法可以提高这段代码的速度吗?

EDIT2:由于体制限制,我不能发布任何原始数据。但是,只是为了说明我正在处理的内容:25k 文本文件,每个文件都包含来自单个 Twitter 用户的所有可用推文。还有另外 10 万个包含 Facebook 状态更新的文件,结构相同。

0 投票
1 回答
679 浏览

r - 当没有结束标记时,qdap 中的 sentSplit() 会出现问题

我正在使用 qdap 包进行极性分析。在 CSV 文件中,我有一个没有标点符号的句子,例如“Sucks to not be removed”(没有句号)。在数据框上使用后sentsplit,此行显示 NA。

如何在 R 中为不完整的句子添加结束标记?有没有办法阻止这种情况?

0 投票
0 回答
291 浏览

r - QDAP 热门积极词的问题

我正在使用 QDAP 极性功能。效果很好!!!

我在计算最积极的词时遇到问题,所以这是我到目前为止所做的

我已经看到了

到目前为止,一切都很好 ....

问题:

数据框显示结果如

什么是“c”字,这些肯定不会出现在

数据框或任何评论文本中。不幸的是,我将无法发布评论评论(实际数据)。

0 投票
4 回答
12364 浏览

r - 创建具有 4M 行的语料库和 DTM 的更有效方法

我的文件有超过 400 万行,我需要一种更有效的方法将我的数据转换为语料库和文档术语矩阵,以便我可以将其传递给贝叶斯分类器。

考虑以下代码:

输出:

我的问题是,我可以用什么来更快地创建语料库和 DTM?如果我使用超过 300k 行,它似乎非常慢。

我听说我可以使用data.table,但我不确定如何使用。

我也查看了qdap包,但是在尝试加载包时它给了我一个错误,而且我什至不知道它是否会起作用。

参考。http://cran.r-project.org/web/packages/qdap/qdap.pdf

0 投票
1 回答
178 浏览

r - 使用 qdap 将 R 中的行转换为列

我一直在使用wfm“qdap”包中的函数将文本行值转换为列,当数据包含数字和文本时遇到问题。例如,如果行值为“abcdef”,则转置工作正常,但如果值为“ab1000”,则会发生数字截断。任何人都可以提供有关如何解决此问题的建议吗?

到目前为止尝试的方法:

0 投票
1 回答
1361 浏览

r - qdap ngram 极性字典

亲爱的 Stackoverlow 人群

我设法使用 qdap 极性函数来计算一些博客条目的极性,加载我自己的字典,基于 sentiWS。现在我确实有一个新的情感词典(SePL),它不仅包含单个单词,还包含短语。例如“simply good”,其中“simply”既不是否定词也不是放大器,而是使其更精确。所以我想知道,我是否可以使用 qdap 的极性函数搜索 ngram。

举个例子:

给出:

但是,我想得到如下输出:

任何人都知道如何让它像那样工作?

一切顺利,本

0 投票
2 回答
829 浏览

r - R:匹配和替换字符串。mgsub 不起作用

我有两个数据框。第一个数据框是一个包含两列单词的库。第二个数据框data1应按如下方式转换:data1$V1列中与lib$V2匹配的字符串应替换为lib$V1列中相应行中的字符串。

最终数据框 data1.final 应如下所示:

我用qdap包中的 mgsub 函数尝试了这个:

但一切都没有改变。有任何想法吗?

0 投票
3 回答
601 浏览

r - R: 在向量模式下使用 mgsub 时如何防止内存溢出?

我有一个很长的字符向量(例如“Hello World”等),170 万行,我需要使用两个向量之间的映射替换其中的单词,并将结果保存在同一个向量中。这是一个简单的例子:

结果:

如您所见,e[j]in line 的每个实例都被替换为r[j]and only r[j]。它在相对较小的“行”和e->r词汇长度上运行良好,但是当我运行length(line) = 1700000and时length(e) = 750,我达到了分配的总内存:

任何想法如何避免它?

0 投票
2 回答
268 浏览

r - 基于表情的情绪

我正在研究情绪,并想用R中的qdap用表达表情符号情绪的单词替换表情符号。

有人可以帮我怎么做。我将进一步使用输出来获取文本的整体情绪。