问题标签 [quanteda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 通过向量重塑数据帧
假设一个名为的函数textstat_frequency{package:quanteda}
为我们提供了以下数据框。
根据 vector 塑造 data.frame 的最佳方法是什么
c("B","A","C")
。我做了一个索引,有match
或%in%
没有任何运气。
r - Quanteda:用字典中的引理替换标记的最快方法?
R quanteda::tokens_lookup() 有更快的替代方案吗?
我使用 'quanteda' R 包中的 tokens() 来标记包含 2000 个文档的数据框。每个文件是 50 - 600 字。这在我的 PC 上需要几秒钟(Microsoft R Open 3.4.1,Intel MKL(使用 2 个内核))。
我有一个字典对象,由近 600 000 个单词(TERMS)及其相应的引理(PARENT)组成的数据框。有 80 000 个不同的引理。
我使用 tokens_lookup() 将令牌列表中的元素替换为在字典中找到的引理。但这至少需要 1.5 小时。这个功能对我的问题来说太慢了。有没有更快的方法,同时仍然获得令牌列表?
我想直接转换令牌列表,在使用字典之后制作 ngrams。如果我只想要 onegrams,我可以通过将文档特征矩阵与字典连接来轻松完成此操作。
我怎样才能更快地做到这一点?将令牌列表转换为数据框,加入字典,转换回有序令牌列表?
这是示例代码:
r - quanteda textstat_simil 用于文本匹配
你好,文本矿工,
我对该领域相当陌生,我正在尝试使用 quanteda 的 textstat_simil(R 包)来评估短语之间的相似性。这些步骤非常前期 - 因此我相信我遗漏了一些明显的东西,但我仍然无法让功能选择工作:
返回错误:
“textstat_simil.dfm 中的错误(myDfm,checkWords,method = “cosine”,margin = “features”):“selection”指定的特征不存在。”
所以,我不清楚如何指定我的coprus的正确特征/单词?
不用说 - 任何反馈都非常受欢迎:)
干杯,
乔治
r - 从 DocumentTermMatrix 转换为 Quanteda dfm
我正在尝试运行朴素贝叶斯分类器,但是当我尝试使用 dtm 代替 dfm 时出现以下错误:
我似乎找不到将我的 dtm 转换为 dfm 的方法。我最初创建 dtm 而不是 dfm 的原因是我制作了一个我想要包含的单词字典,我只能找到一种方法将它们包含在 tm dtm 中,而不是 quanteda dfm 中:
r - 字典与试用站点版本不同的输出
我尝试在 R 中使用 LIWC ditonary 2015 版本。
用于文本分析的虚拟文本:
我试试这条线:
我希望得到如下结果,这些结果可以在官方网站上复制为简单的示例,当然我相信 LIWC 有更多的变量这些是一些示例
但我收到了这个结果:
我怎样才能得到与 LIWC 示例试用站点版本中的结果一样的结果?
r - 将 kwic 对象转换为单个 dfm
我有一个报纸文章的语料库,其中只有特定部分对我的研究感兴趣。我对沿不同帧对文本进行分类得到的结果不满意,因为数据包含太多噪音。因此,我只想从文档中提取相关部分。我正在考虑通过将 quanteda 包生成的几个 kwic 对象转换为单个 df 来实现。
到目前为止,我已经尝试了以下
但是,这会生成一个包含 4 个文档而不是 2 个文档的 dfm,并且当两个关键字都出现在文档中时甚至更多。我想不出办法将 dfm 降低到原始文档数量。
谢谢你帮助我。
r - 如何在 R(在 RStudio 中)中修复“错误:找不到函数“令牌””?
在学习 R 时,我被要求使用包“quanteda”并应用函数“tokens”。不幸的是,当我尝试这样做时,我收到了消息
但我可以使用,例如,“tokenize”。
我的代码是:
附带说明一下,当我尝试自动更新 quanteda 包时,它说我有 0.9.8.3 版本,而最新可用的是 0.9.8.5。更新后,什么也没有发生。
谢谢!
r - 在 R 中安装“quanteda”的问题
我正在尝试在 Ubuntu 15.10 上运行的 R(版本 3.2.2.)中安装用于文本挖掘的 quanteda 包。我收到的消息是老经典:
然而,我已经尝试过依赖
和来自github的建议
没有任何结果。
任何解决方法?
r - 有没有更快的方法来加入/连接 R 中的两个标记?
我正在处理 EMR 数据。医疗记录中的许多实体被分成两个不同的词(例如 - CT Scan),但我计划使用下划线(CT_Scan)将这些标记连接到一个词中。有没有更快的方法在庞大的语料库上执行此任务。我的方法是使用“quanteda”包。这是代码片段 -
这项任务是在大约 30 亿个令牌上执行的,“compound_token”函数花费了大量时间(>12 小时)。有没有更好的方法来解决这个问题?
r - R quanteda 库,语料库创建错误
我有一个奇怪的错误,仅在我的同事 RStudio 运行代码时才会发生。该代码正在处理文本语料库,这就是我所做的:
最后一步是在我进入模型之前重新格式化。我顺利运行此代码,没有任何问题。另一方面,我的同事尝试在完全相同的数据上运行完全相同的代码,并在 ap.corpus<-corpus(ap.corpus: nrow(docvars)==length(x) is not TRUE 之后得到以下错误
我们尝试重新启动 R studio,尝试在较小的语料库(只有 500 个文档)上运行,仍然是同样的错误。希望其他人遇到类似的错误。这似乎不是代码问题,因为我从未在我的 RStudio 中运行此代码或类似代码时遇到过此类错误。注意:我的同事也在 R 中运行代码,避免使用 RStudio。同样的问题。