问题标签 [quanteda]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
60 浏览

r - 通过向量重塑数据帧

假设一个名为的函数textstat_frequency{package:quanteda} 为我们提供了以下数据框。

根据 vector 塑造 data.frame 的最佳方法是什么 c("B","A","C")。我做了一个索引,有match%in%没有任何运气。

0 投票
3 回答
2592 浏览

r - Quanteda:用字典中的引理替换标记的最快方法?

R quanteda::tokens_lookup() 有更快的替代方案吗?

我使用 'quanteda' R 包中的 tokens() 来标记包含 2000 个文档的数据框。每个文件是 50 - 600 字。这在我的 PC 上需要几秒钟(Microsoft R Open 3.4.1,Intel MKL(使用 2 个内核))。

我有一个字典对象,由近 600 000 个单词(TERMS)及其相应的引理(PARENT)组成的数据框。有 80 000 个不同的引理。

我使用 tokens_lookup() 将令牌列表中的元素替换为在字典中找到的引理。但这至少需要 1.5 小时。这个功能对我的问题来说太慢了。有没有更快的方法,同时仍然获得令牌列表?

我想直接转换令牌列表,在使用字典之后制作 ngrams。如果我只想要 onegrams,我可以通过将文档特征矩阵与字典连接来轻松完成此操作。

我怎样才能更快地做到这一点?将令牌列表转换为数据框,加入字典,转换回有序令牌列表?

这是示例代码:

0 投票
1 回答
713 浏览

r - quanteda textstat_simil 用于文本匹配

你好,文本矿工,

我对该领域相当陌生,我正在尝试使用 quanteda 的 textstat_simil(R 包)来评估短语之间的相似性。这些步骤非常前期 - 因此我相信我遗漏了一些明显的东西,但我仍然无法让功能选择工作:

返回错误:

“textstat_simil.dfm 中的错误(myDfm,checkWords,method = “cosine”,margin = “features”):“selection”指定的特征不存在。”

所以,我不清楚如何指定我的coprus的正确特征/单词?

不用说 - 任何反馈都非常受欢迎:)

干杯,

乔治

0 投票
0 回答
754 浏览

r - 从 DocumentTermMatrix 转换为 Quanteda dfm

我正在尝试运行朴素贝叶斯分类器,但是当我尝试使用 dtm 代替 dfm 时出现以下错误:

我似乎找不到将我的 dtm 转换为 dfm 的方法。我最初创建 dtm 而不是 dfm 的原因是我制作了一个我想要包含的单词字典,我只能找到一种方法将它们包含在 tm dtm 中,而不是 quanteda dfm 中:

0 投票
1 回答
86 浏览

r - 字典与试用站点版本不同的输出

我尝试在 R 中使用 LIWC ditonary 2015 版本。

用于文本分析的虚拟文本:

我试试这条线:

我希望得到如下结果,这些结果可以在官方网站上复制为简单的示例,当然我相信 LIWC 有更多的变量这些是一些示例

但我收到了这个结果:

我怎样才能得到与 LIWC 示例试用站点版本中的结果一样的结果?

0 投票
1 回答
126 浏览

r - 将 kwic 对象转换为单个 dfm

我有一个报纸文章的语料库,其中只有特定部分对我的研究感兴趣。我对沿不同帧对文本进行分类得到的结果不满意,因为数据包含太多噪音。因此,我只想从文档中提取相关部分。我正在考虑通过将 quanteda 包生成的几个 kwic 对象转换为单个 df 来实现。

到目前为止,我已经尝试了以下

但是,这会生成一个包含 4 个文档而不是 2 个文档的 dfm,并且当两个关键字都出现在文档中时甚至更多。我想不出办法将 dfm 降低到原始文档数量。

谢谢你帮助我。

0 投票
1 回答
1544 浏览

r - 如何在 R(在 RStudio 中)中修复“错误:找不到函数“令牌””?

在学习 R 时,我被要求使用包“quanteda”并应用函数“tokens”。不幸的是,当我尝试这样做时,我收到了消息

但我可以使用,例如,“tokenize”。

我的代码是:

附带说明一下,当我尝试自动更新 quanteda 包时,它说我有 0.9.8.3 版本,而最新可用的是 0.9.8.5。更新后,什么也没有发生。

谢谢!

0 投票
1 回答
373 浏览

r - 在 R 中安装“quanteda”的问题

我正在尝试在 Ubuntu 15.10 上运行的 R(版本 3.2.2.)中安装用于文本挖掘的 quanteda 包。我收到的消息是老经典:

然而,我已经尝试过依赖

和来自github的建议

没有任何结果。

任何解决方法?

0 投票
0 回答
620 浏览

r - 有没有更快的方法来加入/连接 R 中的两个标记?

我正在处理 EMR 数据。医疗记录中的许多实体被分成两个不同的词(例如 - CT Scan),但我计划使用下划线(CT_Scan)将这些标记连接到一个词中。有没有更快的方法在庞大的语料库上执行此任务。我的方法是使用“quanteda”包。这是代码片段 -

这项任务是在大约 30 亿个令牌上执行的,“compound_token”函数花费了大量时间(>12 小时)。有没有更好的方法来解决这个问题?

0 投票
1 回答
382 浏览

r - R quanteda 库,语料库创建错误

我有一个奇怪的错误,仅在我的同事 RStudio 运行代码时才会发生。该代码正在处理文本语料库,这就是我所做的:

最后一步是在我进入模型之前重新格式化。我顺利运行此代码,没有任何问题。另一方面,我的同事尝试在完全相同的数据上运行完全相同的代码,并在 ap.corpus<-corpus(ap.corpus: nrow(docvars)==length(x) is not TRUE 之后得到以下错误

我们尝试重新启动 R studio,尝试在较小的语料库(只有 500 个文档)上运行,仍然是同样的错误。希望其他人遇到类似的错误。这似乎不是代码问题,因为我从未在我的 RStudio 中运行此代码或类似代码时遇到过此类错误。注意:我的同事也在 R 中运行代码,避免使用 RStudio。同样的问题。