问题标签 [qdap]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R tm/qdap - Get document based on term
I'm trying to figure out how I could identify documents (tweets in this case) based on a term they may include.
Say I have this data frame (df), which is composed of a list of the screen name of Twitter users and one of their tweets.
Well, within this data frame I would like to get the tweets that include a certain term -say "tweet"- and extract those in to a new data frame (df2) like so:
I assume there must be a way to do it using the tm or qdap packages. But could not find anything and so ended up with this mess;
After cleaning the corpus I convert to termDocumentMatrix
I then identify in which row of the Term Document Matrix the term I am interested in is
Subset - if term has been mentioned more than once
Get document number (row number)
Create new data frames where t.tw - only including tweets mentioning term and t.o - other tweets
Thanks for your help.
Apologies if the horrendous piece of code above has offended any accomplished R users.
r - R中的(快速)词频矩阵
我正在编写一个 R 程序,该程序涉及分析大量非结构化文本数据并创建词频矩阵。我一直在使用包中的wfm
andwfdf
函数qdap
,但注意到这对于我的需求来说有点慢。看来词频矩阵的产生是瓶颈。
我的函数的代码如下。
我意识到 for 循环效率低下,因此为了定位瓶颈,我在没有这部分代码的情况下对其进行了测试(简单地读取每个文本文件并生成词频矩阵),并且几乎没有看到速度改进。例子:
输入文件是 Twitter 和 Facebook 状态发布。
有什么办法可以提高这段代码的速度吗?
EDIT2:由于体制限制,我不能发布任何原始数据。但是,只是为了说明我正在处理的内容:25k 文本文件,每个文件都包含来自单个 Twitter 用户的所有可用推文。还有另外 10 万个包含 Facebook 状态更新的文件,结构相同。
r - 当没有结束标记时,qdap 中的 sentSplit() 会出现问题
我正在使用 qdap 包进行极性分析。在 CSV 文件中,我有一个没有标点符号的句子,例如“Sucks to not be removed”(没有句号)。在数据框上使用后sentsplit
,此行显示 NA。
如何在 R 中为不完整的句子添加结束标记?有没有办法阻止这种情况?
r - QDAP 热门积极词的问题
我正在使用 QDAP 极性功能。效果很好!!!
我在计算最积极的词时遇到问题,所以这是我到目前为止所做的
我已经看到了
到目前为止,一切都很好 ....
问题:
数据框显示结果如
什么是“c”字,这些肯定不会出现在
数据框或任何评论文本中。不幸的是,我将无法发布评论评论(实际数据)。
r - 创建具有 4M 行的语料库和 DTM 的更有效方法
我的文件有超过 400 万行,我需要一种更有效的方法将我的数据转换为语料库和文档术语矩阵,以便我可以将其传递给贝叶斯分类器。
考虑以下代码:
输出:
我的问题是,我可以用什么来更快地创建语料库和 DTM?如果我使用超过 300k 行,它似乎非常慢。
我听说我可以使用data.table
,但我不确定如何使用。
我也查看了qdap
包,但是在尝试加载包时它给了我一个错误,而且我什至不知道它是否会起作用。
r - 使用 qdap 将 R 中的行转换为列
我一直在使用wfm
“qdap”包中的函数将文本行值转换为列,当数据包含数字和文本时遇到问题。例如,如果行值为“abcdef”,则转置工作正常,但如果值为“ab1000”,则会发生数字截断。任何人都可以提供有关如何解决此问题的建议吗?
到目前为止尝试的方法:
r - qdap ngram 极性字典
亲爱的 Stackoverlow 人群
我设法使用 qdap 极性函数来计算一些博客条目的极性,加载我自己的字典,基于 sentiWS。现在我确实有一个新的情感词典(SePL),它不仅包含单个单词,还包含短语。例如“simply good”,其中“simply”既不是否定词也不是放大器,而是使其更精确。所以我想知道,我是否可以使用 qdap 的极性函数搜索 ngram。
举个例子:
给出:
但是,我想得到如下输出:
任何人都知道如何让它像那样工作?
一切顺利,本
r - R:匹配和替换字符串。mgsub 不起作用
我有两个数据框。第一个数据框库是一个包含两列单词的库。第二个数据框data1应按如下方式转换:data1$V1列中与lib$V2匹配的字符串应替换为lib$V1列中相应行中的字符串。
最终数据框 data1.final 应如下所示:
我用qdap包中的 mgsub 函数尝试了这个:
但一切都没有改变。有任何想法吗?
r - R: 在向量模式下使用 mgsub 时如何防止内存溢出?
我有一个很长的字符向量(例如“Hello World”等),170 万行,我需要使用两个向量之间的映射替换其中的单词,并将结果保存在同一个向量中。这是一个简单的例子:
结果:
如您所见,e[j]
in line 的每个实例都被替换为r[j]
and only r[j]
。它在相对较小的“行”和e->r
词汇长度上运行良好,但是当我运行length(line) = 1700000
and时length(e) = 750
,我达到了分配的总内存:
任何想法如何避免它?
r - 基于表情的情绪
我正在研究情绪,并想用R中的qdap用表达表情符号情绪的单词替换表情符号。
有人可以帮我怎么做。我将进一步使用输出来获取文本的整体情绪。