问题标签 [quanteda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R:从 Quanteda DFM、稀疏文档特征矩阵、对象中删除正则表达式?
Quanteda 包提供稀疏文档特征矩阵 DFM,其方法包含removeFeatures。我试图dfm(x, removeFeatures="\\b[a-z]{1-3}\\b")
删除太短的单词以及dfm(x, keptFeatures="\\b[a-z]{4-99}\\b")
保留足够长的单词但不起作用,基本上是在做同样的事情,即删除太短的单词。
如何从 Quanteda DFM 对象中删除正则表达式匹配?
例子。
示例 DFM
r - R:使用 Quanteda 包删除CommonTerms?
TM 包的 removeCommonTerms 函数位于此处,这样
现在我想删除 Quanteda 包中过于常见的术语。我可以在创建文档特征矩阵或使用文档特征矩阵之前进行此删除。
如何使用 R 中的 Quanteda 包删除过于常见的术语?
r - R:初始化由两个Quanteda DFM稀疏矩阵的矩阵乘法给出的空dgCMatrix?
我有这样的循环,试图在这里实现解决方案,使用虚拟变量这样
但现在
wheremmm
尚不存在,目标是做与mmm <- t(apply(a, 1, sort, decreasing = TRUE))
. 但现在在 for 循环之前我需要初始化mmm
else Error: object 'mmm' not found
。aaa
和mmm
的类型dgCMatrix
由两个 Quanteda DFM 矩阵的矩阵乘法给出。
结构
aaaFunc
由矩阵乘法给出,DFM %*% t(DFM)
其中 DFM 是 Quanteda Sparse dfm-matrix。结构是这样的
使用此处提到的方法在 DFM 上出现错误,关于复制没有其内容但其结构/等的 R 对象的一般问题。
A.错误
aaaFunc.mt[]<- NA
B.错误
mySparseMatrix.mt[nrow(mySparseMatrix),]<-
C.错误
replace(...,NA)
您如何初始化由两个 Quanteda DFM 矩阵的矩阵乘法给出的空 dgCMatrix?
r - 文档相似性自我剽窃
我有来自 100 位不同作者的数千份小文档。使用quanteda
包,我计算了作者与他们自己之间的余弦相似度。例如,作者 x 有 100 个文本,所以我想出了一个 100 x 100 的相似度矩阵。作者 y 有 50 个文本,所以我想出了一个 50 x 50 的相似度矩阵。
现在我想比较这两位作者。换句话说,哪个作者更抄袭自己?如果我取列或行的平均值,然后再次平均平均值向量,我会得到一个数字,因此我可以比较这两种平均值,但我不确定这些过程是否正确。我希望我说清楚了。
r - QUANTEDA - 无效的类“dfmSparse”对象
我收到此警告消息。我使用这些数据:
https://github.com/kbenoit/quanteda/tree/master/data/data_char_inaugural.RData
RStudio 版本:版本 1.0.136 – © 2009-2016 RStudio, Inc.
QUANTEDA有什么问题?
谢谢!大神
r - 我无法删除 • 和其他一些特殊字符,例如 '- using tm_map
我搜索了问题并能够在我的第一组命令中替换 •。但是当我申请我的语料库时,它不起作用,仍然出现。语料库有 6570 个元素,2.3mb,所以它似乎是有效的。
r - 在 dfm (quanteda) 中操作(重命名和重新组合)特征
我想在 dfm 中操作(重命名和组合)功能,如何进行?
原因如下:我想使用与 Quanteda 中实现的 Porter 词干分析器(通过 Python 调用的 kpss 算法)不同的词干提取算法。
示例 三个单词的句子 c("creatief creatieve creatie") 将产生一个具有三个特征(即“creatief”、“creatieve”、“creatie”)的 dfm,它们的词频均为 1。但是,kpss算法将把这些词词根化为“creatie”。如果我可以将 dfm 中的这三个特征组合成一个名为“creatie”的特征,其词频为 3,那将非常方便。
非常感谢您的帮助。
(注意。我知道在将 dfm 转换为“简单”矩阵后可以进行此类数据操作,但我想在 dfm 中执行此操作)。
附录 我忽略了 dfm_compress 函数。我快到了...在我压缩了 dfm 之后,是否也可以应用字典,例如单词 'creati' 和 'innovati' 应该都算作单词类别 'creati' 的出现(cf. dfm中的字典函数)?(注意。鉴于大量的 txt,我宁愿不喜欢阻止原始数据文件)
r - 读取 R 语料库中每个文档的前两行
我无法弄清楚如何阅读 R 语料库中每个文档的前两行。前两行包含我要分析的新闻文章的标题。我想在标题(而不是每个文本的其余部分)中搜索“堕胎”这个词。
这是我创建语料库的代码:
我尝试在 for 循环中使用 readLines:
readLines(mycorp, n = 2) 中的错误:“con”不是连接
我故意不创建 DFM,因为我想将 465 个文件作为单个文档保留在语料库中。如何从文章 textx 中获取标题?或者,理想情况下,我将如何仅在每个文档的前两行搜索关键字(堕胎)并创建一个仅包含带有关键字的标题的文件?感谢您对此提供的任何帮助。
r - 使用 Quanteda 从文件名中读取 docvar
quanteda 的文档说这是从文件夹中导入文本文件并从文件名中读取元数据的方法:
我在目录中有这些文件:
使用上面的代码时,我得到:
尽管我在文件名中有“-”分隔符。
r - Quanteda:应用多层次的 Yoshikoder 字典
我使用 quanteda 进行基于字典的定量文本分析。我正在用 Lowe's Yoshikoder 建立自己的字典。我可以将我的 Yoshikoder 字典与 quanteda 一起应用(见下文)——然而,该函数只占字典的第一级。我需要查看每个类别的所有值,包括所有子类别(至少 4 个级别)。我怎样才能做到这一点?