问题标签 [quanteda]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
261 浏览

r - 如何在 unigrams 中保持词内周期?R量子

我想在我的 unigram 频率表中保留两个字母的首字母缩写词,它们用“tv”和“us”等句点分隔。当我用 quanteda 构建我的 unigram 频率表时,终止周期被截断。这是一个小的测试语料库来说明。我已删除句点作为句子分隔符:

SOS This is the u.s. where our politics is crazy EOS

SOS In the US we watch a lot of t.v. aka TV EOS

SOS TV is an important part of life in the US EOS

SOS folks outside the u.s. probably don't watch so much t.v. EOS

SOS living in other countries is probably not any less crazy EOS

SOS i enjoy my sanity when it comes to visit EOS

我将其作为字符向量加载到 R 中:

这是我用来构建我的 unigram 频率表的代码:

这会产生以下结果:

ETC...

我想保留电视和我们的终端时段,并消除表格中的条目。频率为 3。

我也不明白为什么句号 (.) 在正确计算 us 和 tv unigram 时会在此表中计数为 3(每个 2)。

0 投票
1 回答
1084 浏览

r - R文本挖掘如何将文档分割成短语而不是术语

在使用 R 进行文本挖掘时,在对文本数据进行再处理后,我们需要创建一个文档术语矩阵以进行进一步探索。但是和中文类似,英文也有一些特定的阶段,例如“语义距离”,“机器学习”,如果将它们分割成单词,它的含义就完全不同了,我想知道如何将文档分割成阶段而不是词(词)。

0 投票
1 回答
769 浏览

r - R构造文档术语矩阵如何匹配其值由空格分隔的短语组成的字典

在使用 R 进行文本挖掘时,在对文本数据进行再处理后,我们需要创建一个文档术语矩阵以进行进一步探索。但是和中文类似,英文也有一些特定的阶段,比如“语义距离”、“机器学习”,如果你把它们分割成单词,它就有完全不同的含义,我想知道如何匹配预定义的字典值由空格分隔的术语组成,例如包含“语义距离”、“机器学习”。如果一个文档是“我们可以使用机器学习的方法来计算词的语义距离”,当将该文档应用于字典[“语义距离”,“机器学习”]时,它将返回一个1x2矩阵:[语义距离,1 ;机器学习,1]

0 投票
2 回答
634 浏览

r - 为R中的不同特征分配权重

在 R 中制定 DFM 之前,是否可以为不同的特征分配权重?

考虑 R 中的这个例子

str="apple is better than banana" mydfm=dfm(str, ignoredFeatures = stopwords("english"), verbose = FALSE)

DFM mydfm 看起来像:

但是,我想事先分配权重(apple:5,banana:3),这样 DFM mydfm 看起来像:

0 投票
1 回答
1065 浏览

r - 使用 Quanteda 为文本分类实现朴素贝叶斯

我有一个包含两列的 BBC 文章数据集:“类别”和“文本”。我需要构建一个朴素贝叶斯算法,根据类型预测文章的类别(即商业、娱乐)。

我正在尝试使用 Quanteda 并具有以下代码:

它似乎工作顺利,直到 predict(),它给出:

谁能提供有关如何解决此问题的见解?我仍然掌握文本分析和 quanteda 的窍门。谢谢!

这是数据集的链接。

0 投票
1 回答
843 浏览

r - 在“quanteda”包中连接 dfm 矩阵

是否存在同时连接两个包含不同列数和行数的 dfm 矩阵的方法?它可以通过一些额外的编码来完成,所以我对临时代码不感兴趣,而是对通用且优雅的解决方案(如果有的话)感兴趣。

一个例子:

给出一个错误。

'tm' 包可以直接连接它的 dfm 矩阵;它对我的目的来说太慢了。

还记得来自“quanteda”的“dfm”是一个 S4 类。

0 投票
1 回答
91 浏览

r - Change the length of ContextPre and ContextPost in Quanteda KWIC

Is there a way to increase the number of words appearing before and after the keyword in Quanteda kwic function?

I've tried by changing the numeric value in:

but it didn't work. @KenBenoit

0 投票
1 回答
800 浏览

r - 如何将 kwic 从 quanteda 包转换为语料库?

如何将 kwic 的输出转换为语料库进行进一步分析?更具体地说,我想根据关键字(contextPre、contextPost)之前和之后的单词创建一个语料库,以对它们进行进一步的情感分析。

0 投票
1 回答
384 浏览

r - 在 quanteda R 包中运行 dfm 函数时出现“无效的类“dfmSparse”对象”错误

我正在使用 quanteda,一个用于管理和分析文本的 R 包。我在使用它的一个核心功能时遇到了麻烦:“dfm”,它用于构建文档频率矩阵。

运行函数

返回的代码和错误

如您所见,该函数正在运行,但在“构建稀疏矩阵”之后就卡住了。我不明白这个错误或如何解决它。有什么建议吗?

0 投票
1 回答
2053 浏览

r - 将单词植入 R 中的 LDA 主题模型

我有一个新闻文章数据集,这些文章是根据他们使用术语“欧洲怀疑论”或“欧洲怀疑论”的标准收集的。我一直在使用lda包(dfm内置矩阵quanteda)运行主题模型,以确定这些文章的主要主题;但是,我感兴趣的词没有出现在任何主题中。因此,我想将这些词植入模型中,但我不确定该怎么做。

我看到这个包topicmodels允许一个叫做种子词的参数,它“可以指定为一个matrix或一个对象类simple_triplet_matrix”,但没有其他说明。似乎 asimple_triplet_matrix只接受整数,而不是字符串 - 有谁知道我会在模型中植入“euroscepticism”和“eurosceptic”这两个词?

这是代码的简化版本: