问题标签 [quanteda]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

531 问题

0 投票

1 回答

87 浏览

r - Quanteda findSequence 函数的输出定义 - 用于文本分析的 R 包

快速提问：

R 文本分析包 Quanteda - findSequence 提供以下输出，但我在某些列上找不到文档：

有人可以帮助定义z，p和mue是p =概率吗？如果是这样，如何计算。帮助说，“该算法基于 Blaheta 和 Johnson 的“多词动词的无监督学习”。但没有提供输出组件的更多细节。

看起来很有趣的功能，但更多信息会有所帮助。

r quanteda

2016-09-14T18:04:19.437

0 投票

1 回答

975 浏览

r - Quanteda - 提取已识别的字典单词

我正在尝试从 Quanteda dfm 中提取已识别的字典单词，但一直无法找到解决方案。

有人对此有解决方案吗？

样本输入：

输出：

我现在知道句子中已经确定了一个季节性字典词，但我也想知道它是哪个词。

这最好以表格格式提取：

r text-mining quanteda

2016-09-28T11:38:31.793

0 投票

1 回答

75 浏览

r - 在 quanteda dfm 中为不同的项分配不同的数字权重不起作用

我是文本分析的新手，目前正在尝试 R 中的#Quanteda 包以满足我的需要。我想为某些特定分配不同的数字权重并测试模型的准确性。我尝试了此处其他线程中提到的方法，方法是保留 dfm 类，将权重分配给 R 中的不同特征，但无法获得正确的输出。任何帮助，将不胜感激。

这是我尝试过的

环境细节

platform x86_64-w64-mingw32
arch x86_64
os mingw32
system x86_64, mingw32
status
major 3
minor 2.2
year 2015
month 08
day 14
svn rev 69053
language R
version.string R version 3.2.2 (2015-08-14) 昵称 Fire Safety

r quanteda

2016-10-04T17:40:54.943

0 投票

1 回答

160 浏览

r - R如何在Quanteda包中使用maxCount方案

我的问题很简单，R 中的 Quanteda 包具有计算文档频率矩阵（dfm）的词频（tf）的功能。当你用 ?tf 查看 tf 函数的描述时，它说它有四个参数。我的问题是关于“方案”的论点。我不明白如何使用 maxCount 选项，即使用每个文档的最大特征数作为 tf. 当您查看“用法”时，方案参数的唯一选项是“count”、“prop”、“propmax”、“boolean”、“log”、“augmented”和“logave”，那么，我该如何使用maxCount 选项？

r tf-idf quanteda

2016-10-14T03:05:44.357

0 投票

2 回答

623 浏览

r - 如何使用 quanteda 将元数据附加到文本语料库？

我正在使用quanteda创建文本语料库并尝试附加元数据，但我不断收到错误消息。我之前在另一个数据集上使用过此代码，但由于某种原因，它不适用于我当前的数据集。代码是：

我得到的错误是：

select_(.data, .dots = lazyeval::lazy_dots(...)) 中的错误：找不到对象“party”

我还尝试将派对放在引号中并收到此错误：

UseMethod（“select_”）中的错误：没有适用于“select_”的方法应用于“字符”类的对象

派对专栏非常直截了当。这些值为：

关于可能出现问题的任何想法？

r text corpus quanteda

2016-11-02T03:19:14.507

0 投票

1 回答

336 浏览

r - r quanteda error predict.textmodel_NB_fitted：未实现

我正在尝试使用以下代码从 quanteda NB 预测情绪分析：

我收到以下错误消息：

运行：quanteda_0.9.8.5
Matrix_1.2-7.1
R 版本 3.3.1 (2016-06-21)
平台：x86_64-pc-linux-gnu (64-bit)
运行于：Ubuntu 16.10

有人知道吗？

r predict quanteda

2016-11-18T09:39:26.507

0 投票

1 回答

219 浏览

r - 用字母创建单词的dfm

我正在尝试从字符串创建字母的 dfm。当 dfm 无法选择可以为“/”“-”“”等标点符号创建功能时，我遇到了问题。或者 '。

对于“a/de-d/f”，我也想捕获字母“/”“-”
为什么是“。” 充当 rowsum 的特征。如何将其保留为单独的功能？

r sapply quanteda dfm

2016-11-20T02:10:50.433

0 投票

1 回答

353 浏览

r - Quanteda - 将函数应用于文档变量的 DFM

我正在使用 R 的 quanteda 包以及 R 和包的最新版本。我有一个数以百万计的文件语料库。

假设我有一个从 quanteda 生成的 DFM，每个文档都有一个日期的 docvar。在给定的一天内生成了数千个文档，但我想按天获取应用于文档的 DFM（这样我每天就有每个术语的总字数）。我知道 quanteda 是使用 data.table 构建的，所以应该可以做到这一点，但我在“Quanteda 入门”或 StackOverflow 上几乎没有发现什么提供了一种干净的方法。

有什么建议么？

r quanteda

2016-11-29T02:28:49.007

0 投票

0 回答

83 浏览

json - Quanteda 文本文件 Twitter JSON 错误读取

我正在尝试使用 Quanteda 的文本文件包装器在以下链接中读取 JSON ：

我的代码如下：

但是当我运行它时，我得到以下错误，尽管链接文件是 Twitter JSON。

我已经阅读了 Quanteda 的文档，这里发生的事情有点不透明。我可以使用常规的 R JSON 阅读器阅读此文件，但我想以“Quanteda 方式”阅读它。

json r text quanteda

2016-12-22T04:10:22.550

0 投票

2 回答

469 浏览

r - R：稀疏矩阵乘法与 data.table 和 quanteda 包？

我正在尝试使用与此线程相关的 data.table 包创建一个具有稀疏矩阵和名为 quanteda 的包的矩阵乘法。所以

如何使用 quanteda 包和稀疏矩阵使矩阵乘法在这里工作？

r matrix data.table sparse-matrix quanteda

2017-01-09T15:22:06.177

1 2 3 4 5 6 7 8 9 10

问题标签 [quanteda]

Reference