问题标签 [qdap]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 将特殊字符保存在词频矩阵中
我在文本中分析了一些品牌,以找出 KPI,例如广告识别。但是到目前为止,包含特殊字符的品牌都被我的代码破坏了。
这是输出:
有没有一种包装或方法来归档 H&M 得到 h&m,而不是像它的两个品牌那样的“h”和“m”?
编辑: wfm 函数有一个 ... 参数,应该允许我使用 strip 函数。
不幸的是不起作用。
r - 从 .docx 中删除 R 中的特殊字符
我看过各种关于删除 R 中的特殊字符的帖子(例如这篇文章:Remove all special characters from a string in R?),但没有一个策略对我的问题有效。
我有一份我正在使用 qdap 的 read.transcript() 阅读的成绩单。当我在文档中阅读时,它使带有特殊字符的行看起来像这样:
我努力了:
但这不会删除特殊字符,也会删除 !
我也试过:
但这更糟糕,并且删除了所有标点符号,但仍然无法解决我的问题。
最后,我也试过:
但这里也没有任何改变。
在理想世界中,输出如下所示:
因此,特殊字符被读入它们“应该”的样子。如果这是不可能的,老实说,如果它只是删除特殊字符(但不是其他字符,如感叹号)并看起来像这样,我真的可以:
谢谢!
r - 根据最后 n 个字符提取值
我有一个如下所示的向量:
如何提取最后 3 个值,以便我的结果基于-
分隔符如下所示:
我尝试使用 sub 和 qdap 包,但没有运气。
不知道该怎么做。
r - 防止 rm_stopwords 函数创建列表
我使用包中的rm_stopwords
函数从qdap
数据框中的文本列中删除停用词和标点符号。
该函数返回 reviewText 列的列表。
关于如何防止它(即保留原始格式)或取消列出/取消嵌套列并返回原始格式的任何想法?
结果应该与原始数据框中的结果类似,但没有停用词和标点符号。
这是一个小输入:
inner-join - 基于情感分析将自定义(加权)字典应用于文本
我正在寻找调整此代码,以便我可以为这些情态动词中的每一个分配不同的权重。这个想法是使用类似于 NRC 库的东西,其中我们有 1-5 的“数字”代表类别,而不是数字。
我的问题是,当我运行以下代码时,我有 5 个“可能”与一个“必须”一样。我想要的是每个单词都有不同的权重,这样当我运行这个分析时,我可以看到更强的“必须”与说更弱的“可以”的使用集中度。*“tidy.DF”是我的语料库,“school”和“target”是列名。
r - R qdap 搜索排除语法
我从《华尔街日报》下载的数据中有以下输出。
我想捕获,但由于数据中的位置(如行号)Net Income
没有一致性,我尝试使用特别是。它在查找大多数信息方面做得很好,但我对如何删除其他行感到困惑。Net Income
library qdap
Search
我认为这exclude
可能会有所帮助,但它似乎不起作用。
我可以Net Income
通过其他方式获得,但我更愿意只使用一个功能,即存在Search
或任何library qdap
可能提供的功能。
任何指导都将受到欢迎。
编辑!!
缩减代码如下,因为运行起来比为其提供数据更容易。该符号与原始符号不同,因此行号将发生变化。
问候斯蒂芬
r - 安装“qdap”包
显示以下错误:
r - 将整洁的文本与同义词结合起来创建数据框
我有如下示例数据框:
我创建了一些整洁的文本如下
此外,我使用qdap包搜索了同义词,如下所示
qdap 输出是一个列表,我希望为整洁的数据框中的每个单词选择前 5 个同义词,并创建一个名为 synonyms 的列,如下所示:
从 qdap 同义词函数合并 5 个单词列表并用逗号分隔的优雅方法是什么?
r - 如何过滤掉语料库中的所有短字符串(2个和更低的字符)?
给定一个简单的字符串:
我想过滤掉所有 2 和更低长度的子字符串。我怎样才能使用qdap
或tm
包做到这一点?我知道我可以使用regex
它,但是有一个功能可以做到吗?