问题标签 [quanteda]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
87 浏览

r - Quanteda findSequence 函数的输出定义 - 用于文本分析的 R 包

快速提问:

R 文本分析包 Quanteda - findSequence 提供以下输出,但我在某些列上找不到文档:

有人可以帮助定义z,p和mue是p =概率吗?如果是这样,如何计算。帮助说,“该算法基于 Blaheta 和 Johnson 的“多词动词的无监督学习”。但没有提供输出组件的更多细节。

看起来很有趣的功能,但更多信息会有所帮助。

0 投票
1 回答
975 浏览

r - Quanteda - 提取已识别的字典单词

我正在尝试从 Quanteda dfm 中提取已识别的字典单词,但一直无法找到解决方案。

有人对此有解决方案吗?

样本输入:

输出:

我现在知道句子中已经确定了一个季节性字典词,但我也想知道它是哪个词。

这最好以表格格式提取:

0 投票
1 回答
75 浏览

r - 在 quanteda dfm 中为不同的项分配不同的数字权重不起作用

我是文本分析的新手,目前正在尝试 R 中的#Quanteda 包以满足我的需要。我想为某些特定分配不同的数字权重并测试模型的准确性。我尝试了此处其他线程中提到的方法,方法是保留 dfm 类, 将权重分配给 R 中的不同特征,但无法获得正确的输出。任何帮助,将不胜感激。

这是我尝试过的

环境细节

platform x86_64-w64-mingw32
arch x86_64
os mingw32
system x86_64, mingw32
status
major 3
minor 2.2
year 2015
month 08
day 14
svn rev 69053
language R
version.string R version 3.2.2 (2015-08-14) 昵称 Fire Safety

0 投票
1 回答
160 浏览

r - R如何在Quanteda包中使用maxCount方案

我的问题很简单,R 中的 Quanteda 包具有计算文档频率矩阵(dfm)的词频(tf)的功能。当你用 ?tf 查看 tf 函数的描述时,它说它有四个参数。我的问题是关于“方案”的论点。我不明白如何使用 maxCount 选项,即使用每个文档的最大特征数作为 tf. 当您查看“用法”时,方案参数的唯一选项是“count”、“prop”、“propmax”、“boolean”、“log”、“augmented”和“logave”,那么,我该如何使用maxCount 选项?

0 投票
2 回答
623 浏览

r - 如何使用 quanteda 将元数据附加到文本语料库?

我正在使用quanteda创建文本语料库并尝试附加元数据,但我不断收到错误消息。我之前在另一个数据集上使用过此代码,但由于某种原因,它不适用于我当前的数据集。代码是:

我得到的错误是:

select_(.data, .dots = lazyeval::lazy_dots(...)) 中的错误:找不到对象“party”

我还尝试将派对放在引号中并收到此错误:

UseMethod(“select_”)中的错误:没有适用于“select_”的方法应用于“字符”类的对象

派对专栏非常直截了当。这些值为:

关于可能出现问题的任何想法?

0 投票
1 回答
336 浏览

r - r quanteda error predict.textmodel_NB_fitted:未实现

我正在尝试使用以下代码从 quanteda NB 预测情绪分析:

我收到以下错误消息:

运行:quanteda_0.9.8.5
Matrix_1.2-7.1
R 版本 3.3.1 (2016-06-21)
平台:x86_64-pc-linux-gnu (64-bit)
运行于:Ubuntu 16.10

有人知道吗?

0 投票
1 回答
219 浏览

r - 用字母创建单词的dfm

我正在尝试从字符串创建字母的 dfm。当 dfm 无法选择可以为“/”“-”“”等标点符号创建功能时,我遇到了问题。或者 '。

  1. 对于“a/de-d/f”,我也想捕获字母“/”“-”
  2. 为什么是“。” 充当 rowsum 的特征。如何将其保留为单独的功能?
0 投票
1 回答
353 浏览

r - Quanteda - 将函数应用于文档变量的 DFM

我正在使用 R 的 quanteda 包以及 R 和包的最新版本。我有一个数以百万计的文件语料库。

假设我有一个从 quanteda 生成的 DFM,每个文档都有一个日期的 docvar。在给定的一天内生成了数千个文档,但我想按天获取应用于文档的 DFM(这样我每天就有每个术语的总字数)。我知道 quanteda 是使用 data.table 构建的,所以应该可以做到这一点,但我在“Quanteda 入门”或 StackOverflow 上几乎没有发现什么提供了一种干净的方法。

有什么建议么?

0 投票
0 回答
83 浏览

json - Quanteda 文本文件 Twitter JSON 错误读取

我正在尝试使用 Quanteda 的文本文件包装器在以下链接中读取 JSON :

我的代码如下:

但是当我运行它时,我得到以下错误,尽管链接文件是 Twitter JSON。

我已经阅读了 Quanteda 的文档,这里发生的事情有点不透明。我可以使用常规的 R JSON 阅读器阅读此文件,但我想以“Quanteda 方式”阅读它。

0 投票
2 回答
469 浏览

r - R:稀疏矩阵乘法与 data.table 和 quanteda 包?

我正在尝试使用与此线程相关的 data.table 包创建一个具有稀疏矩阵和名为 quanteda 的包的矩阵乘法。所以

如何使用 quanteda 包和稀疏矩阵使矩阵乘法在这里工作?