问题标签 [term-document-matrix]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
391 浏览

r - 为什么我不能创建文档术语矩阵?

我正在使用 R 3.3.0,由于某种原因,我无法在没有收到错误的情况下创建 DTM:

下面我粘贴了我使用的代码:

在阅读有关此错误的 stackoverflow 上的其他帖子后,我稍后添加了最后 2 行。但是,它仍然不起作用。

会话信息()

我需要为我的硕士论文运行这个。我是 R 的初学者,我真的希望有人能帮助我!

0 投票
1 回答
166 浏览

r - tm 会自动忽略非常短的字符串吗?

这是我的代码:示例 1:

结果是:

看起来 a 中的第一个字符串被忽略了。

示例 2

结果是:

我们可以看到两个子字符串 (abcd, cde) 被保留,而最靠前的一个 (de) 仍然丢失。如果我不使用 control = list(stemming=T),情况也是一样的。所以,我很好奇这是否是 tm 中的一种定义?如果少于 3 个字母,字符串将被忽略?我不认为这是一个好主意。一个字符串很有可能是有用的,即使它很短,例如缩写。

如果是这样,是否有参数或可以改变它的东西?非常感谢。

0 投票
1 回答
236 浏览

plot - 如何在 Rstudio 上增加 TermDocumentMatrix 绘图的字体大小?

我正在处理一些推文并使用文本挖掘技术。

我使用了以下命令,由于字体太小,绘图不可读。我该如何解决?

阴谋

0 投票
1 回答
3365 浏览

r - tm_map(gsub...) 无法替换单词

问题线

ff.all<-tm_map(ff.all,gsub,模式=“免费”,替换=“自由”)

所以我试图用一个词根替换相似的词。例如,在文本挖掘项目中将“free”替换为“freedom”。

然后我从 Youtube 教程中学到了这一行:ff.all<-tm_map(ff.all, gsub, pattern = "free", replacement = "freedom")。没有这一行,代码就会运行。

添加此行后,R Studio 在执行此行时给出此错误“错误:inherits(doc, "TextDocument") is not TRUE ”:“ tdm.all<-TermDocumentMatrix(ff.all)

我认为这应该是一个相对简单的问题,但是我在 stackoverflow 上找不到解决方案。

0 投票
2 回答
840 浏览

r - 如何在 r 中读写 TermDocumentMatrix?

我使用 R 中的 csv 文件制作了 wordcloud。我使用TermDocumentMatrixtm包中的方法。这是我的代码:

这个过程似乎花费了太多时间。我认为extractNoun这是花费太多时间的原因。为了使代码更省时,我想将生成的 TDM 保存为文件。当我阅读这个保存的文件时,我可以m <- as.matrix(saved TDM file)完全使用吗?或者,有没有更好的选择?

0 投票
1 回答
435 浏览

r - 使用 sparklyr 将 Spark 数据帧转换为 R 中的术语文档矩阵

我在 R 中有一个代码,需要对其进行缩放以使用大数据。我为此使用 Spark,似乎最方便的软件包是 sparklyr。但是,我无法从 Spark 数据框创建 TermDocument 矩阵。任何帮助都会很棒。

input_key 是具有以下模式的数据框。

我在 R 中的代码如下。

0 投票
2 回答
1603 浏览

r - 如何根据每个术语的出现频率过滤术语文档矩阵

我有一个术语文档矩阵。我希望对其进行子集化并仅保留出现次数超过一定次数的术语,即行总和应大于特定数字。有什么快速的方法来实现这一点吗?顺便说一句,矩阵很大。

0 投票
1 回答
45 浏览

r - 创建 TermDocument Matrix 后无法将单个数字/字母视为术语

TermDocument在 R 中使用了 Matrix,并且文档(字符串)也包括单字母单词。使用TermDocumentMatrix 后,术语不包含那些单字母单词,请建议我应该包含哪个控件作为输入参数,以便在我的术语文档矩阵中包含单字母单词。`

0 投票
2 回答
3584 浏览

r - 使用 tm 和 RWeka 创建 N-Grams - 适用于 VCorpus 但不适用于 Corpus

遵循使用 'tm' 和 'RWeka' 包创建biGrams的许多指南后,我对tdm中只返回1-Grams感到沮丧。经过多次反复试验,我发现使用“ VCorpus ”实现了正确的功能,但没有使用“ Corpus ”。顺便说一句,我很确定这在大约 1 个月前与“语料库”合作,但现在不是。

R (3.3.3)、RTools (3.4)、RStudio (1.0.136) 和所有软件包(tm 0.7-1、RWeka 0.4-31)已更新到最新版本。

如果其他人有同样的问题,我将不胜感激。

结果与“语料库”

'VCorpus' 的结果

0 投票
1 回答
105 浏览

r - 文档术语矩阵不会保留数字的小数位

在我更新我的 RStudio 版本之前,一切都很好。随着更新,“tm”包中的文档术语矩阵发生了一些变化。我想创建一个 dtm,但有数字。例如,如果我有一个包含一列的 .csv,如下所示:

我希望术语矩阵中的列名如下所示:

但相反,它看起来像这样:

这是曾经工作的代码:

corpus = Corpus(VectorSource(x)) dtm = DocumentTermMatrix(corpus) dtm_df = as.data.frame(as.matrix(dtm))

提前致谢