问题标签 [quanteda]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Quanteda findSequence 函数的输出定义 - 用于文本分析的 R 包
快速提问:
R 文本分析包 Quanteda - findSequence 提供以下输出,但我在某些列上找不到文档:
有人可以帮助定义z,p和mue是p =概率吗?如果是这样,如何计算。帮助说,“该算法基于 Blaheta 和 Johnson 的“多词动词的无监督学习”。但没有提供输出组件的更多细节。
看起来很有趣的功能,但更多信息会有所帮助。
r - Quanteda - 提取已识别的字典单词
我正在尝试从 Quanteda dfm 中提取已识别的字典单词,但一直无法找到解决方案。
有人对此有解决方案吗?
样本输入:
输出:
我现在知道句子中已经确定了一个季节性字典词,但我也想知道它是哪个词。
这最好以表格格式提取:
r - 在 quanteda dfm 中为不同的项分配不同的数字权重不起作用
我是文本分析的新手,目前正在尝试 R 中的#Quanteda 包以满足我的需要。我想为某些特定分配不同的数字权重并测试模型的准确性。我尝试了此处其他线程中提到的方法,方法是保留 dfm 类, 将权重分配给 R 中的不同特征,但无法获得正确的输出。任何帮助,将不胜感激。
这是我尝试过的
环境细节
platform x86_64-w64-mingw32
arch x86_64
os mingw32
system x86_64, mingw32
status
major 3
minor 2.2
year 2015
month 08
day 14
svn rev 69053
language R
version.string R version 3.2.2 (2015-08-14) 昵称 Fire Safety
r - R如何在Quanteda包中使用maxCount方案
我的问题很简单,R 中的 Quanteda 包具有计算文档频率矩阵(dfm)的词频(tf)的功能。当你用 ?tf 查看 tf 函数的描述时,它说它有四个参数。我的问题是关于“方案”的论点。我不明白如何使用 maxCount 选项,即使用每个文档的最大特征数作为 tf. 当您查看“用法”时,方案参数的唯一选项是“count”、“prop”、“propmax”、“boolean”、“log”、“augmented”和“logave”,那么,我该如何使用maxCount 选项?
r - 如何使用 quanteda 将元数据附加到文本语料库?
我正在使用quanteda
创建文本语料库并尝试附加元数据,但我不断收到错误消息。我之前在另一个数据集上使用过此代码,但由于某种原因,它不适用于我当前的数据集。代码是:
我得到的错误是:
select_(.data, .dots = lazyeval::lazy_dots(...)) 中的错误:找不到对象“party”
我还尝试将派对放在引号中并收到此错误:
UseMethod(“select_”)中的错误:没有适用于“select_”的方法应用于“字符”类的对象
派对专栏非常直截了当。这些值为:
关于可能出现问题的任何想法?
r - r quanteda error predict.textmodel_NB_fitted:未实现
我正在尝试使用以下代码从 quanteda NB 预测情绪分析:
我收到以下错误消息:
运行:quanteda_0.9.8.5
Matrix_1.2-7.1
R 版本 3.3.1 (2016-06-21)
平台:x86_64-pc-linux-gnu (64-bit)
运行于:Ubuntu 16.10
有人知道吗?
r - 用字母创建单词的dfm
我正在尝试从字符串创建字母的 dfm。当 dfm 无法选择可以为“/”“-”“”等标点符号创建功能时,我遇到了问题。或者 '。
- 对于“a/de-d/f”,我也想捕获字母“/”“-”
- 为什么是“。” 充当 rowsum 的特征。如何将其保留为单独的功能?
r - Quanteda - 将函数应用于文档变量的 DFM
我正在使用 R 的 quanteda 包以及 R 和包的最新版本。我有一个数以百万计的文件语料库。
假设我有一个从 quanteda 生成的 DFM,每个文档都有一个日期的 docvar。在给定的一天内生成了数千个文档,但我想按天获取应用于文档的 DFM(这样我每天就有每个术语的总字数)。我知道 quanteda 是使用 data.table 构建的,所以应该可以做到这一点,但我在“Quanteda 入门”或 StackOverflow 上几乎没有发现什么提供了一种干净的方法。
有什么建议么?
json - Quanteda 文本文件 Twitter JSON 错误读取
我正在尝试使用 Quanteda 的文本文件包装器在以下链接中读取 JSON :
我的代码如下:
但是当我运行它时,我得到以下错误,尽管链接文件是 Twitter JSON。
我已经阅读了 Quanteda 的文档,这里发生的事情有点不透明。我可以使用常规的 R JSON 阅读器阅读此文件,但我想以“Quanteda 方式”阅读它。
r - R:稀疏矩阵乘法与 data.table 和 quanteda 包?
我正在尝试使用与此线程相关的 data.table 包创建一个具有稀疏矩阵和名为 quanteda 的包的矩阵乘法。所以
如何使用 quanteda 包和稀疏矩阵使矩阵乘法在这里工作?