问题标签 [term-document-matrix]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 为什么我不能创建文档术语矩阵?
我正在使用 R 3.3.0,由于某种原因,我无法在没有收到错误的情况下创建 DTM:
下面我粘贴了我使用的代码:
在阅读有关此错误的 stackoverflow 上的其他帖子后,我稍后添加了最后 2 行。但是,它仍然不起作用。
会话信息()
我需要为我的硕士论文运行这个。我是 R 的初学者,我真的希望有人能帮助我!
r - tm 会自动忽略非常短的字符串吗?
这是我的代码:示例 1:
结果是:
看起来 a 中的第一个字符串被忽略了。
示例 2
结果是:
我们可以看到两个子字符串 (abcd, cde) 被保留,而最靠前的一个 (de) 仍然丢失。如果我不使用 control = list(stemming=T),情况也是一样的。所以,我很好奇这是否是 tm 中的一种定义?如果少于 3 个字母,字符串将被忽略?我不认为这是一个好主意。一个字符串很有可能是有用的,即使它很短,例如缩写。
如果是这样,是否有参数或可以改变它的东西?非常感谢。
plot - 如何在 Rstudio 上增加 TermDocumentMatrix 绘图的字体大小?
我正在处理一些推文并使用文本挖掘技术。
我使用了以下命令,由于字体太小,绘图不可读。我该如何解决?
r - tm_map(gsub...) 无法替换单词
问题线
ff.all<-tm_map(ff.all,gsub,模式=“免费”,替换=“自由”)
所以我试图用一个词根替换相似的词。例如,在文本挖掘项目中将“free”替换为“freedom”。
然后我从 Youtube 教程中学到了这一行:ff.all<-tm_map(ff.all, gsub, pattern = "free", replacement = "freedom")。没有这一行,代码就会运行。
添加此行后,R Studio 在执行此行时给出此错误“错误:inherits(doc, "TextDocument") is not TRUE ”:“ tdm.all<-TermDocumentMatrix(ff.all) ”
我认为这应该是一个相对简单的问题,但是我在 stackoverflow 上找不到解决方案。
r - 如何在 r 中读写 TermDocumentMatrix?
我使用 R 中的 csv 文件制作了 wordcloud。我使用TermDocumentMatrix
了tm
包中的方法。这是我的代码:
这个过程似乎花费了太多时间。我认为extractNoun
这是花费太多时间的原因。为了使代码更省时,我想将生成的 TDM 保存为文件。当我阅读这个保存的文件时,我可以m <- as.matrix(saved TDM file)
完全使用吗?或者,有没有更好的选择?
r - 使用 sparklyr 将 Spark 数据帧转换为 R 中的术语文档矩阵
我在 R 中有一个代码,需要对其进行缩放以使用大数据。我为此使用 Spark,似乎最方便的软件包是 sparklyr。但是,我无法从 Spark 数据框创建 TermDocument 矩阵。任何帮助都会很棒。
input_key 是具有以下模式的数据框。
我在 R 中的代码如下。
r - 如何根据每个术语的出现频率过滤术语文档矩阵
我有一个术语文档矩阵。我希望对其进行子集化并仅保留出现次数超过一定次数的术语,即行总和应大于特定数字。有什么快速的方法来实现这一点吗?顺便说一句,矩阵很大。
r - 创建 TermDocument Matrix 后无法将单个数字/字母视为术语
我TermDocument
在 R 中使用了 Matrix,并且文档(字符串)也包括单字母单词。使用TermDocument
Matrix 后,术语不包含那些单字母单词,请建议我应该包含哪个控件作为输入参数,以便在我的术语文档矩阵中包含单字母单词。`
r - 使用 tm 和 RWeka 创建 N-Grams - 适用于 VCorpus 但不适用于 Corpus
遵循使用 'tm' 和 'RWeka' 包创建biGrams的许多指南后,我对tdm中只返回1-Grams感到沮丧。经过多次反复试验,我发现使用“ VCorpus ”实现了正确的功能,但没有使用“ Corpus ”。顺便说一句,我很确定这在大约 1 个月前与“语料库”合作,但现在不是。
R (3.3.3)、RTools (3.4)、RStudio (1.0.136) 和所有软件包(tm 0.7-1、RWeka 0.4-31)已更新到最新版本。
如果其他人有同样的问题,我将不胜感激。
结果与“语料库”
'VCorpus' 的结果
r - 文档术语矩阵不会保留数字的小数位
在我更新我的 RStudio 版本之前,一切都很好。随着更新,“tm”包中的文档术语矩阵发生了一些变化。我想创建一个 dtm,但有数字。例如,如果我有一个包含一列的 .csv,如下所示:
我希望术语矩阵中的列名如下所示:
但相反,它看起来像这样:
这是曾经工作的代码:
corpus = Corpus(VectorSource(x))
dtm = DocumentTermMatrix(corpus)
dtm_df = as.data.frame(as.matrix(dtm))
提前致谢