问题标签 [term-document-matrix]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

147 问题

0 投票

0 回答

391 浏览

r - 为什么我不能创建文档术语矩阵？

我正在使用 R 3.3.0，由于某种原因，我无法在没有收到错误的情况下创建 DTM：

下面我粘贴了我使用的代码：

在阅读有关此错误的 stackoverflow 上的其他帖子后，我稍后添加了最后 2 行。但是，它仍然不起作用。

会话信息（）

我需要为我的硕士论文运行这个。我是 R 的初学者，我真的希望有人能帮助我！

r term-document-matrix

2016-10-28T17:22:31.287

0 投票

1 回答

166 浏览

r - tm 会自动忽略非常短的字符串吗？

这是我的代码：示例 1：

结果是：

看起来 a 中的第一个字符串被忽略了。

示例 2

结果是：

我们可以看到两个子字符串 (abcd, cde) 被保留，而最靠前的一个 (de) 仍然丢失。如果我不使用 control = list(stemming=T)，情况也是一样的。所以，我很好奇这是否是 tm 中的一种定义？如果少于 3 个字母，字符串将被忽略？我不认为这是一个好主意。一个字符串很有可能是有用的，即使它很短，例如缩写。

如果是这样，是否有参数或可以改变它的东西？非常感谢。

r tm term-document-matrix

2016-11-09T02:39:08.303

0 投票

1 回答

236 浏览

plot - 如何在 Rstudio 上增加 TermDocumentMatrix 绘图的字体大小？

我正在处理一些推文并使用文本挖掘技术。

我使用了以下命令，由于字体太小，绘图不可读。我该如何解决？

plot rstudio font-size term-document-matrix

2016-12-25T19:51:12.487

0 投票

1 回答

3365 浏览

r - tm_map(gsub...) 无法替换单词

问题线

ff.all<-tm_map（ff.all，gsub，模式=“免费”，替换=“自由”）

所以我试图用一个词根替换相似的词。例如，在文本挖掘项目中将“free”替换为“freedom”。

然后我从 Youtube 教程中学到了这一行：ff.all<-tm_map(ff.all, gsub, pattern = "free", replacement = "freedom")。没有这一行，代码就会运行。

添加此行后，R Studio 在执行此行时给出此错误“错误：inherits(doc, "TextDocument") is not TRUE ”：“ tdm.all<-TermDocumentMatrix(ff.all) ”

我认为这应该是一个相对简单的问题，但是我在 stackoverflow 上找不到解决方案。

r text-mining term-document-matrix

2017-01-29T23:55:28.030

0 投票

2 回答

840 浏览

r - 如何在 r 中读写 TermDocumentMatrix？

我使用 R 中的 csv 文件制作了 wordcloud。我使用TermDocumentMatrix了tm包中的方法。这是我的代码：

这个过程似乎花费了太多时间。我认为extractNoun这是花费太多时间的原因。为了使代码更省时，我想将生成的 TDM 保存为文件。当我阅读这个保存的文件时，我可以m <- as.matrix(saved TDM file)完全使用吗？或者，有没有更好的选择？

r nlp term-document-matrix

2017-02-08T02:34:29.830

0 投票

1 回答

435 浏览

r - 使用 sparklyr 将 Spark 数据帧转换为 R 中的术语文档矩阵

我在 R 中有一个代码，需要对其进行缩放以使用大数据。我为此使用 Spark，似乎最方便的软件包是 sparklyr。但是，我无法从 Spark 数据框创建 TermDocument 矩阵。任何帮助都会很棒。

input_key 是具有以下模式的数据框。

我在 R 中的代码如下。

r apache-spark tm sparklyr term-document-matrix

2017-02-17T14:09:47.387

0 投票

2 回答

1603 浏览

r - 如何根据每个术语的出现频率过滤术语文档矩阵

我有一个术语文档矩阵。我希望对其进行子集化并仅保留出现次数超过一定次数的术语，即行总和应大于特定数字。有什么快速的方法来实现这一点吗？顺便说一句，矩阵很大。

r tm term-document-matrix

2017-03-03T07:36:19.613

0 投票

1 回答

45 浏览

r - 创建 TermDocument Matrix 后无法将单个数字/字母视为术语

我TermDocument在 R 中使用了 Matrix，并且文档（字符串）也包括单字母单词。使用TermDocumentMatrix 后，术语不包含那些单字母单词，请建议我应该包含哪个控件作为输入参数，以便在我的术语文档矩阵中包含单字母单词。`

r string text-mining term-document-matrix

2017-03-12T06:53:19.273

0 投票

2 回答

3584 浏览

r - 使用 tm 和 RWeka 创建 N-Grams - 适用于 VCorpus 但不适用于 Corpus

遵循使用 'tm' 和 'RWeka' 包创建biGrams的许多指南后，我对tdm中只返回1-Grams感到沮丧。经过多次反复试验，我发现使用“ VCorpus ”实现了正确的功能，但没有使用“ Corpus ”。顺便说一句，我很确定这在大约 1 个月前与“语料库”合作，但现在不是。

R (3.3.3)、RTools (3.4)、RStudio (1.0.136) 和所有软件包（tm 0.7-1、RWeka 0.4-31）已更新到最新版本。

如果其他人有同样的问题，我将不胜感激。

结果与“语料库”

'VCorpus' 的结果

r tm n-gram term-document-matrix rweka

2017-03-13T05:33:22.570

0 投票

1 回答

105 浏览

r - 文档术语矩阵不会保留数字的小数位

在我更新我的 RStudio 版本之前，一切都很好。随着更新，“tm”包中的文档术语矩阵发生了一些变化。我想创建一个 dtm，但有数字。例如，如果我有一个包含一列的 .csv，如下所示：

我希望术语矩阵中的列名如下所示：

但相反，它看起来像这样：

这是曾经工作的代码：

corpus = Corpus(VectorSource(x)) dtm = DocumentTermMatrix(corpus) dtm_df = as.data.frame(as.matrix(dtm))

提前致谢

r text-mining corpus term-document-matrix

2017-03-14T01:21:59.583

1 2 3 4 5 6 7 8 9 10

问题标签 [term-document-matrix]

问题线

Reference