“qdap”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

324 浏览

r - 不同数量文档的情感分析

我正在尝试对报纸文章进行情绪分析，并随时间跟踪情绪水平。为此，基本上我会在一天内识别出所有相关的新闻文章，将它们输入到 polar() 函数中并获得所有文章的平均极性分数（更准确地说，是所有文章中所有句子的平均值）那天之内。

问题是，在某些日子里，与其他日子相比，文章会更多，我认为如果我们简单地跟踪每日平均极性分数，这可能会掩盖一些信息。例如，30 篇新闻文章的 0.1 分应该比仅 3 篇文章产生的 0.1 分具有更大的权重。果然，我获得的一些更极端的极性分数来自于相关文章很少的日子。

无论如何我可以考虑每天不同数量的文章吗？

r sentiment-analysis qdap

2015-01-21T01:08:33.373

0 投票

1 回答

1486 浏览

r - 无法在 R 中绘制 Zipf 定律

我从文本文件中加载了大量术语及其频率，并将其转换为表格：

我可能应该添加一个带有单词排名的列，然后根据频率绘制排名，但我该怎么做呢？

r distribution tm qdap

2015-02-07T09:25:54.103

0 投票

2 回答

2298 浏览

r - 替换 R 中的字符串，给出模式向量和替换向量

给定一个我想替换的具有不同占位符的字符串，R 是否有一个函数可以在给定模式向量和替换向量的情况下替换所有这些占位符？

我已经设法通过一个列表和一个循环来实现这一点

有一个类似的问题R：gsub，模式=向量和替换=向量但它要求仅用一种模式替换不同的字符串。在这里，我正在寻找替换单个字符串中的所有模式。

我努力了

显然输出不是我想要的（几个输出字符串，每个只有一个替换）。

我想知道一个函数是否存在于 base 或一个众所周知的 CRAN 包中，它会像前面显示的那样被调用，并且能够在单个字符串中进行所有替换。

有人对我的循环有更好的解决方案或建议，还是应该将其转换为函数？

[注意] 字符串可以是小型网页模板，o 配置文件。它们很小，因此循环进行 10 或 20 次替换并不是什么大问题，但我正在寻找更优雅的解决方案。

r stringr qdap

2015-02-15T18:52:43.770

0 投票

1 回答

1274 浏览

r - R qdap::mgsub，如何使用正则表达式传递模式？

在上一个问题（replace string in R 给出模式向量和替换向量）中，y 发现 mgsub 确实有一个不需要 br 转义的字符串作为模式。当您想将诸如 '[%.+%]' 之类的文本替换为文字字符串时，这很好，但是如果您需要传递一个真正的正则表达式，例如：

如何将正则表达式传递给 mgsub？

[更新] @BondeDust 是正确的，对于这个过于简单的例子，这个问题没有意义。想要使用 mgsub 的原因是它能够使用模式向量和替换向量与单个字符串并在该字符串中进行所有替换。

例如在下一个示例中

我想尽可能利用正则表达式，而不是编写所有可能的字符串（有时我事先不知道它们）。

r qdap

2015-02-15T22:49:08.483

0 投票

2 回答

5423 浏览

r - R：TM 包从单列中查找词频

我最近一直在尝试使用包data.frame在 R 中的单个列中查找词频。tm虽然它data.frame本身有许多基于数字和字符的列，但我只对纯文本的单个列感兴趣。虽然我清理文本本身没有问题，但只要我尝试使用findFreqTerms()命令提取词频，就会收到以下错误：

我认为这是说我需要将我的数据转换为 aDocumentTermMatrix或 a TermDocumentMatrix，但是由于我只有一个正在使用的列，所以我也无法创建任何一个。以下错误：

有没有办法从单列中获取频率计数？我在下面粘贴了我的完整代码，并对我采取的每个步骤进行了解释。我很感激你们能给我的任何帮助。

r tm qdap

2015-02-25T15:20:33.787

0 投票

0 回答

1073 浏览

r - 要运行 qdap，为什么我必须重复安装依赖项 = T 的 gtools？

我已经安装了包qdap[2.2.0] 和gtools[Ver. 3.4.1] 这qdap需要。但是加载它们library()失败，直到我每次都使用参数重新安装 gtools dependencies = TRUE。我做错了什么而不理解？

r installation qdap

2015-02-28T12:45:14.603

0 投票

1 回答

1709 浏览

r - 将短语列表与文档语料库匹配并返回短语频率

我有一个短语列表和一个文档语料库。语料库中有 100k+ 个短语和 60k+ 个文档。这些短语可能/可能不会出现在语料库中。我期待找到语料库中每个短语的词频。

一个示例数据集：

我是 R 中文本分析的新手，并且已经按照 Tyler Rinker 对此R 文本挖掘的解决方案解决了这个问题：计算特定单词在语料库中出现的次数？.

到目前为止，这是我的方法：

当我在 csv 中导出结果时，它只会告诉我短语 1 是否存在于任何文档中。

我期待如下输出（不包括不匹配的短语）：

r text-mining tm word-frequency qdap

2015-04-01T17:35:15.617

0 投票

1 回答

1307 浏览

r - R-pos() 函数如何用于词性标记

我是 R 新手，对pos()函数的工作方式感到困惑。原因如下：

例子：

这会产生正确的输出，说明字数

而以下操作会引发错误：

我无法理解为什么会这样。

r string tagging qdap

2015-04-27T12:57:36.203

0 投票

2 回答

3167 浏览

r - 从字符向量中提取和计算常用词对

有人如何在字符向量中找到频繁的相邻单词对？以原油数据集为例，一些常见的对是“原油”、“石油市场”和“百万桶”。

下面的小示例的代码尝试识别频繁项，然后使用积极的前瞻断言，计算这些频繁项后面紧跟一个频繁项的次数。但这次尝试失败并烧毁了。

关于如何创建在第一列（“Pairs”）中显示常见对和在第二列（“Count”）中显示它们在文本中出现的次数的任何指导，将不胜感激。

这就是努力失败的地方。

不了解 Java 或 Python，这些对Java 计算单词对没有帮助Python 计算单词对，但它们可能对其他人有用。

谢谢你。

r regex-lookarounds tm qdap

2015-06-14T14:39:17.030

0 投票

1 回答

1027 浏览

r - R中的agrep字符串匹配

我有两个产品名称列表。我的问题是“操作系统”与“系统”、“冷却系统”等匹配。但它只能与“Operating”、“OS”匹配。另一个例子是“Key Board”应该与“key”或“KB”匹配，而不是与“Mother Board”或只是“Board”匹配。

如何重视第一个词而不是第二个词？

我agrep()在 R 中使用过。它也匹配“系统”和“冷却系统”作为第一个示例。如何避免这种匹配？

是否有任何功能/方法可以将“键盘”与“KB”和“操作系统”与“OS”匹配？

提前致谢。

r string-matching tm agrep qdap

2015-06-23T08:33:04.400

问题标签 [qdap]

Reference