问题标签 [qdap]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1348 浏览

r - 根据输入动态更改列名

我正在尝试根据输入动态命名数据框的输出。

目前,输出如下所示:

但是,我希望它看起来像这样:

我认为答案与 match.call/do.call 有关,但在使用这些函数时,我的知识充其量是模糊的。有谁知道这是否可能?

谢谢你的帮助!

0 投票
2 回答
474 浏览

r - R 中 qdap 包中的剥离函数 - 错误地删除斜线

我有一个文本文件,它有几百行长。我正在尝试从中删除所有 [edit:add] 标点符号,但“/”字符除外。我目前正在使用 qdap 包中的 strip 函数。

这是一个示例数据集:

这是代码:

这个漂亮功能的唯一问题是它删除了“/”字符。如果我尝试删除除“{”字符之外的所有字符,它会起作用:

有没有人遇到过同样的问题?

0 投票
3 回答
10783 浏览

r - 将写入的数字转换为 R 中的数字

有谁知道将数字的文本表示形式转换为实际数字的函数,例如将“20305”转换为 20305。我在数据框行中写入了数字,并希望将它们转换为数字。

在包 qdap 中,您可以用单词替换数字表示的数字(例如,1001 变成一千一),但不能反过来:

0 投票
7 回答
20267 浏览

r - R将语料库分成句子

  1. 我有许多 PDF 文档,我已将它们读入带有 library 的语料库tm。如何将语料库分解成句子?

  2. 可以readLines通过sentSplit从包qdap[*] 读取文件来完成。该功能需要一个数据框。它还需要放弃语料库并单独读取所有文件。

  3. 如何将函数sentSplit{ qdap} 传递给语料库tm?或者,还有更好的方法?。

注意:sentDetect library 中有一个函数openNLP,现在是Maxent_Sent_Token_Annotator- 同样的问题适用:如何将其与语料库 [tm] 结合使用?

0 投票
2 回答
114 浏览

regex - 如何将多值字符串转换为 R 中的可用频率表?

我在一个名为 plugins_Apache_module 的数据框中有一个字段,它包含如下字符串:

我需要一个关于模块的频率表,以及它们的版本。

在 R 中执行此操作的最佳方法是什么?由于在 R 中相当新,我见过 strsplit、gsub,一些聊天室还建议我使用qdap 包

理想情况下,我希望将字符串转换为每个模块都有一列的数据框,如果模块在那里,那么版本将进入该特定字段。我将如何完成这样的转变?

如果我想要顶级频率,建议使用哪种数据帧格式 - 比如说 mod_ssl(所有版本)以及关系选项(mod_perl 经常与 mod_ssl 一起使用)。

在推入数据帧进行处理时,我不太确定如何处理这种可变长度的数据。欢迎任何建议。

我认为正确的答案看起来像:

所以基本上第一位变成一列,后面的版本变成行条目

0 投票
0 回答
240 浏览

r - R中是否有类似excel中的vlookup的查找功能?

我想知道R包'qdap'中是否有lookup()函数。我安装了它并尝试使用它,但抛出一个错误“找不到函数“查找”。

提前致谢。阿米特。

0 投票
1 回答
51 浏览

r - 在R中合并重复并分配最高频率(中性除外!)的值

我发布了一个非常相似的问题,但我需要更改条件。我有一个充满多个条目的data.frame。列是“no”、“article”和“class”(“p”=positive,“n”=negative,“x”=neutral)。它看起来像这样:

我想摆脱多个条目。多个条目的文章应该合并,但前提是文章不相同!然后,我希望分配除“x”之外的频率最高的类。“x”表示中性,所以如果有重复的“x”、“p”,我仍然希望分配“p”。如果有“n”,则应分配“x”->“n”。与其他多个条目相同。如果“p”和“n”的频率相等,则应分配“x”。

在我的旧问题中,即使它们相同,文章也会被合并,并且分配了频率最高的类(“x”、“n”、“p”处理相同)。如果没有最高频率,则分配“x”。有用的方法是:

我试图更改此代码,但我对如何编写函数和 qdap 知之甚少,无法真正理解这一点。

0 投票
2 回答
3797 浏览

r - 使用 R 的 qdap 包估计文档极性而不使用 sentSplit

我想将qdap'spolarity函数应用于文档向量,每个文档向量可以包含多个句子,并为每个文档获取相应的极性。例如:

这个警告不容忽视,因为它似乎在文档中添加了每个句子的极性分数。这可能导致文档级别的极性分数超出 [-1, 1] 范围。

我知道先运行sentSplit然后在句子中平均的选项,也许是按字数加权极性,但这是(1)效率低下(大约是在带有警告的完整文档上运行的时间的 4 倍),并且( 2)不清楚如何加重句子。这个选项看起来像这样:

我希望我可以polarity在删除了句点的向量版本上运行,但似乎sentSplit不止于此。这适用于DATA其他文本集,但不适用于其他文本集(我不确定除了句点之外的完整中断集)。

所以,我怀疑解决这个问题的最好方法是让文档向量的每个元素看起来像一个长句子。我该怎么做,或者有其他方法吗?

0 投票
1 回答
331 浏览

r - 绘制来自 qdap 库的 dist_tab() 函数的结果

我有兴趣绘制以下代码的结果,该代码生成频率分布表。我想将 Freq 列绘制为条形图,并将 cum.Freq 绘制为一条线,它们都将区间列共享为 x 轴。

我已经能够使用 ggplot 构建条形图,但我想通过将 cum.Freq 添加为辅助轴来更进一步。我还想添加添加为数据标签的百分比和 cum.percent 值。任何帮助表示赞赏。

0 投票
1 回答
1261 浏览

r - R:“查找”函数中的“变量名称限制为”错误,qdap

搜索了很多,没有找到回复。

我正在为 qdap 库中的“查找”功能而苦苦挣扎。我在数据框 CityCountry 中有一个城市名称列表;这是代码和str:

spint 是一个最短路径数据框,它使用相关城市名称作为行名。我想抓住这些,用它们新建一个数据框,在数据框routes_lookup中查找每个城市对应的国家。这是 str(routes_lookup) 和我的查找函数:

这是我不断收到的错误。我已经尝试过很多次,但上面的函数调用似乎最接近正确(尽管当然不完全在那里)。

我当然认为上面显示的 str(CityCountry) 说明了这个问题。但是数据框包含 chr 类型的列,routes_lookup 中的 City_Dest 列也是如此。如何使这两列具有相同的数据类型?