“qdap”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

210 浏览

r - R tm/qdap - Get document based on term

I'm trying to figure out how I could identify documents (tweets in this case) based on a term they may include.

Say I have this data frame (df), which is composed of a list of the screen name of Twitter users and one of their tweets.

Well, within this data frame I would like to get the tweets that include a certain term -say "tweet"- and extract those in to a new data frame (df2) like so:

I assume there must be a way to do it using the tm or qdap packages. But could not find anything and so ended up with this mess;

After cleaning the corpus I convert to termDocumentMatrix

I then identify in which row of the Term Document Matrix the term I am interested in is

Subset - if term has been mentioned more than once

Get document number (row number)

Create new data frames where t.tw - only including tweets mentioning term and t.o - other tweets

Thanks for your help.

Apologies if the horrendous piece of code above has offended any accomplished R users.

r tm qdap

2014-06-09T09:31:30.120

0 投票

1 回答

1166 浏览

r - R中的（快速）词频矩阵

我正在编写一个 R 程序，该程序涉及分析大量非结构化文本数据并创建词频矩阵。我一直在使用包中的wfmandwfdf函数qdap，但注意到这对于我的需求来说有点慢。看来词频矩阵的产生是瓶颈。

我的函数的代码如下。

我意识到 for 循环效率低下，因此为了定位瓶颈，我在没有这部分代码的情况下对其进行了测试（简单地读取每个文本文件并生成词频矩阵），并且几乎没有看到速度改进。例子：

输入文件是 Twitter 和 Facebook 状态发布。

有什么办法可以提高这段代码的速度吗？

EDIT2：由于体制限制，我不能发布任何原始数据。但是，只是为了说明我正在处理的内容：25k 文本文件，每个文件都包含来自单个 Twitter 用户的所有可用推文。还有另外 10 万个包含 Facebook 状态更新的文件，结构相同。

r performance text-analysis word-frequency qdap

2014-06-22T03:29:59.877

0 投票

1 回答

679 浏览

r - 当没有结束标记时，qdap 中的 sentSplit() 会出现问题

我正在使用 qdap 包进行极性分析。在 CSV 文件中，我有一个没有标点符号的句子，例如“Sucks to not be removed”（没有句号）。在数据框上使用后sentsplit，此行显示 NA。

如何在 R 中为不完整的句子添加结束标记？有没有办法阻止这种情况？

r qdap

2014-07-21T22:35:02.037

0 投票

0 回答

291 浏览

r - QDAP 热门积极词的问题

我正在使用 QDAP 极性功能。效果很好！！！

我在计算最积极的词时遇到问题，所以这是我到目前为止所做的

我已经看到了

到目前为止，一切都很好 ....

问题：

数据框显示结果如

什么是“c”字，这些肯定不会出现在

数据框或任何评论文本中。不幸的是，我将无法发布评论评论（实际数据）。

r qdap

2014-07-22T17:09:39.693

0 投票

4 回答

12364 浏览

r - 创建具有 4M 行的语料库和 DTM 的更有效方法

我的文件有超过 400 万行，我需要一种更有效的方法将我的数据转换为语料库和文档术语矩阵，以便我可以将其传递给贝叶斯分类器。

考虑以下代码：

输出：

我的问题是，我可以用什么来更快地创建语料库和 DTM？如果我使用超过 300k 行，它似乎非常慢。

我听说我可以使用data.table，但我不确定如何使用。

我也查看了qdap包，但是在尝试加载包时它给了我一个错误，而且我什至不知道它是否会起作用。

参考。http://cran.r-project.org/web/packages/qdap/qdap.pdf

r data.table corpus term-document-matrix qdap

2014-08-15T16:57:16.517

0 投票

1 回答

178 浏览

r - 使用 qdap 将 R 中的行转换为列

我一直在使用wfm“qdap”包中的函数将文本行值转换为列，当数据包含数字和文本时遇到问题。例如，如果行值为“abcdef”，则转置工作正常，但如果值为“ab1000”，则会发生数字截断。任何人都可以提供有关如何解决此问题的建议吗？

到目前为止尝试的方法：

r transpose qdap

2014-09-22T15:55:01.287

0 投票

1 回答

1361 浏览

r - qdap ngram 极性字典

亲爱的 Stackoverlow 人群

我设法使用 qdap 极性函数来计算一些博客条目的极性，加载我自己的字典，基于 sentiWS。现在我确实有一个新的情感词典（SePL），它不仅包含单个单词，还包含短语。例如“simply good”，其中“simply”既不是否定词也不是放大器，而是使其更精确。所以我想知道，我是否可以使用 qdap 的极性函数搜索 ngram。

举个例子：

给出：

但是，我想得到如下输出：

任何人都知道如何让它像那样工作？

一切顺利，本

r dictionary sentiment-analysis qdap

2014-11-26T18:54:02.070

0 投票

2 回答

829 浏览

r - R：匹配和替换字符串。mgsub 不起作用

我有两个数据框。第一个数据框库是一个包含两列单词的库。第二个数据框data1应按如下方式转换：data1$V1列中与lib$V2匹配的字符串应替换为lib$V1列中相应行中的字符串。

最终数据框 data1.final 应如下所示：

我用qdap包中的 mgsub 函数尝试了这个：

但一切都没有改变。有任何想法吗？

r string replace match qdap

2014-11-28T14:50:32.390

0 投票

3 回答

601 浏览

r - R: 在向量模式下使用 mgsub 时如何防止内存溢出？

我有一个很长的字符向量（例如“Hello World”等），170 万行，我需要使用两个向量之间的映射替换其中的单词，并将结果保存在同一个向量中。这是一个简单的例子：

结果：

如您所见，e[j]in line 的每个实例都被替换为r[j]and only r[j]。它在相对较小的“行”和e->r词汇长度上运行良好，但是当我运行length(line) = 1700000and时length(e) = 750，我达到了分配的总内存：

任何想法如何避免它？

r memory-management qdap

2014-12-08T22:08:46.277

0 投票

2 回答

268 浏览

r - 基于表情的情绪

我正在研究情绪，并想用R中的qdap用表达表情符号情绪的单词替换表情符号。

有人可以帮我怎么做。我将进一步使用输出来获取文本的整体情绪。

r qdap

2015-01-12T06:20:52.370

问题标签 [qdap]

Reference