问题标签 [quanteda]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

531 问题

0 投票

1 回答

60 浏览

r - 通过向量重塑数据帧

假设一个名为的函数textstat_frequency{package:quanteda} 为我们提供了以下数据框。

根据 vector 塑造 data.frame 的最佳方法是什么 c("B","A","C")。我做了一个索引，有match或%in%没有任何运气。

r quanteda

2017-10-12T15:41:32.853

0 投票

3 回答

2592 浏览

r - Quanteda：用字典中的引理替换标记的最快方法？

R quanteda::tokens_lookup() 有更快的替代方案吗？

我使用 'quanteda' R 包中的 tokens() 来标记包含 2000 个文档的数据框。每个文件是 50 - 600 字。这在我的 PC 上需要几秒钟（Microsoft R Open 3.4.1，Intel MKL（使用 2 个内核））。

我有一个字典对象，由近 600 000 个单词（TERMS）及其相应的引理（PARENT）组成的数据框。有 80 000 个不同的引理。

我使用 tokens_lookup() 将令牌列表中的元素替换为在字典中找到的引理。但这至少需要 1.5 小时。这个功能对我的问题来说太慢了。有没有更快的方法，同时仍然获得令牌列表？

我想直接转换令牌列表，在使用字典之后制作 ngrams。如果我只想要 onegrams，我可以通过将文档特征矩阵与字典连接来轻松完成此操作。

我怎样才能更快地做到这一点？将令牌列表转换为数据框，加入字典，转换回有序令牌列表？

这是示例代码：

r dictionary text token quanteda

2017-10-13T13:45:26.403

0 投票

1 回答

713 浏览

r - quanteda textstat_simil 用于文本匹配

你好，文本矿工，

我对该领域相当陌生，我正在尝试使用 quanteda 的 textstat_simil（R 包）来评估短语之间的相似性。这些步骤非常前期 - 因此我相信我遗漏了一些明显的东西，但我仍然无法让功能选择工作：

返回错误：

“textstat_simil.dfm 中的错误（myDfm，checkWords，method = “cosine”，margin = “features”）：“selection”指定的特征不存在。”

所以，我不清楚如何指定我的coprus的正确特征/单词？

不用说 - 任何反馈都非常受欢迎:)

干杯，

乔治

r text matching similarity quanteda

2017-11-14T13:46:49.520

0 投票

0 回答

754 浏览

r - 从 DocumentTermMatrix 转换为 Quanteda dfm

我正在尝试运行朴素贝叶斯分类器，但是当我尝试使用 dtm 代替 dfm 时出现以下错误：

我似乎找不到将我的 dtm 转换为 dfm 的方法。我最初创建 dtm 而不是 dfm 的原因是我制作了一个我想要包含的单词字典，我只能找到一种方法将它们包含在 tm dtm 中，而不是 quanteda dfm 中：

r nlp quanteda

2017-11-30T10:54:24.537

0 投票

1 回答

86 浏览

r - 字典与试用站点版本不同的输出

我尝试在 R 中使用 LIWC ditonary 2015 版本。

用于文本分析的虚拟文本：

我试试这条线：

我希望得到如下结果，这些结果可以在官方网站上复制为简单的示例，当然我相信 LIWC 有更多的变量这些是一些示例

但我收到了这个结果：

我怎样才能得到与 LIWC 示例试用站点版本中的结果一样的结果？

r quanteda

2017-12-03T11:03:44.423

0 投票

1 回答

126 浏览

r - 将 kwic 对象转换为单个 dfm

我有一个报纸文章的语料库，其中只有特定部分对我的研究感兴趣。我对沿不同帧对文本进行分类得到的结果不满意，因为数据包含太多噪音。因此，我只想从文档中提取相关部分。我正在考虑通过将 quanteda 包生成的几个 kwic 对象转换为单个 df 来实现。

到目前为止，我已经尝试了以下

但是，这会生成一个包含 4 个文档而不是 2 个文档的 dfm，并且当两个关键字都出现在文档中时甚至更多。我想不出办法将 dfm 降低到原始文档数量。

谢谢你帮助我。

r quanteda

2017-12-05T15:11:50.050

0 投票

1 回答

1544 浏览

r - 如何在 R（在 RStudio 中）中修复“错误：找不到函数“令牌””？

在学习 R 时，我被要求使用包“quanteda”并应用函数“tokens”。不幸的是，当我尝试这样做时，我收到了消息

但我可以使用，例如，“tokenize”。

我的代码是：

附带说明一下，当我尝试自动更新 quanteda 包时，它说我有 0.9.8.3 版本，而最新可用的是 0.9.8.5。更新后，什么也没有发生。

谢谢！

r quanteda

2017-12-22T12:52:55.857

0 投票

1 回答

373 浏览

r - 在 R 中安装“quanteda”的问题

我正在尝试在 Ubuntu 15.10 上运行的 R（版本 3.2.2.）中安装用于文本挖掘的 quanteda 包。我收到的消息是老经典：

然而，我已经尝试过依赖

和来自github的建议

没有任何结果。

任何解决方法？

r text-mining quanteda

2017-12-26T10:33:26.800

0 投票

0 回答

620 浏览

r - 有没有更快的方法来加入/连接 R 中的两个标记？

我正在处理 EMR 数据。医疗记录中的许多实体被分成两个不同的词（例如 - CT Scan），但我计划使用下划线（CT_Scan）将这些标记连接到一个词中。有没有更快的方法在庞大的语料库上执行此任务。我的方法是使用“quanteda”包。这是代码片段 -

这项任务是在大约 30 亿个令牌上执行的，“compound_token”函数花费了大量时间（>12 小时）。有没有更好的方法来解决这个问题？

r nlp bioinformatics quanteda

2017-12-30T23:26:39.083

0 投票

1 回答

382 浏览

r - R quanteda 库，语料库创建错误

我有一个奇怪的错误，仅在我的同事 RStudio 运行代码时才会发生。该代码正在处理文本语料库，这就是我所做的：

最后一步是在我进入模型之前重新格式化。我顺利运行此代码，没有任何问题。另一方面，我的同事尝试在完全相同的数据上运行完全相同的代码，并在 ap.corpus<-corpus(ap.corpus: nrow(docvars)==length(x) is not TRUE 之后得到以下错误

我们尝试重新启动 R studio，尝试在较小的语料库（只有 500 个文档）上运行，仍然是同样的错误。希望其他人遇到类似的错误。这似乎不是代码问题，因为我从未在我的 RStudio 中运行此代码或类似代码时遇到过此类错误。注意：我的同事也在 R 中运行代码，避免使用 RStudio。同样的问题。

r corpus quanteda

2018-01-05T16:20:28.597

1 2 3 4 5 6 7 8 9 10

问题标签 [quanteda]

Reference