问题标签 [term-document-matrix]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
708 浏览

r - R:TermDocumentMatrix - 创建时出错

我正在尝试获取 twitter 数据并创建 wordcloud,但我的代码在创建 TermDocumentMatrix 时出错。我的代码如下

创建 TermDocumentMatrix 之前没有错误。我得到的错误如下

mclapply(x$content[i], function(d) tm_reduce(d, x$lazy$maps)) 中的警告:调度核心 1 在用户代码中遇到错误,作业的所有值都会受到影响 mclapply(unname( content(x)), termFreq, control) : 计划核心 1 在用户代码中遇到错误,作业的所有值都会受到影响错误”堆栈跟踪(最里面的第一个):74:FUN
73:lapply
72:setNames
71:as.list.VCorpus
70:as.list
69:lapply
68:meta.VCorpus
67:meta
66: TermDocumentMatrix.VCorpus
65 :TermDocumentMatrix
64 : as.matrix
63:观察事件处理程序
1:运行应用程序

我已经添加了lazy = TRUEcontent_transformer(tolower)但仍然出现错误。

0 投票
0 回答
1056 浏览

r - R:创建 termDocumentMatrix() 对象时出错

这是我用来为训练数据创建 termdocumentmatrix 对象的代码:

它有效!机器没有抱怨。

但是,当我使用相同的技术为验证数据集创建一个时,机器会抱怨!

这是我用来为验证集创建 termdocumentmatrix 对象的代码。请注意,唯一的区别是我在控件中添加了“字典”参数:

但是,我不断收到以下错误消息:

simple_triplet_matrix 中的错误(i = i,j = j,v = as.numeric(v),nrow = length(allTerms),:'i,j,v'不同的长度

我已经阅读了很多帖子,包括:

  1. 仅当 # terms > 3000 时 DocumentTermMatrix 失败并出现奇怪的错误
  2. Twitter 数据分析 - 术语文档矩阵中的错误
  3. twitter 数据 <- termdocumentmatrix 中的错误
  4. Twitter 数据分析 - 术语文档矩阵中的错误

我尝试了他们所有建议的解决方案,但没有一个有效。

我想补充的一点是,只有当我使用超过 2000 条推文时才会出现问题。

关于输入数据的注意事项

输入数据是一个包含两列的数据表,其中一列名为“SentimentText”(您在上面的代码中看到)。

在这一列中,每一行是一条推文,每条推文是一个文本字符串,即 character()。

一条示例推文,也就是一个行数据,如下所示:“我今天过得很愉快!:>”

非常感谢任何帮助!

0 投票
2 回答
691 浏览

text-mining - 将 TermDocumentMatrix 导入 R

我正在研究 R 的 tm 包中的定性分析项目。我已经建立了一个语料库并创建了一个术语文档矩阵,长话短说我需要编辑我的术语文档矩阵并合并它的一些行。为此,我已将其从 R 中导出,使用

然后我将 csv 文件导入回 R,但我正在努力弄清楚如何让 R 将其读取为 aTermDocumentMatrixDocumentTermMatrix.

我尝试使用以下示例代码的建议但无济于事。

它似乎一直在阅读我的矩阵,就好像它是一个语料库,每个单元格都是一个文档。

是否有任何方法可以导入 csv 矩阵,该矩阵将被读取为termdocumentmatrixdocumenttermmatrix不让 R 读取 csv,就好像每个单元格都是文档一样?

0 投票
1 回答
567 浏览

r - 空词文档矩阵

每当我尝试检查我的频率时,我似乎遇到了问题。词和联想。

当我制作 tdm 时,我得到以下信息: TermDocumentMatrix

我可以在大量文档中看到我有很多要使用的术语。然而!

当我尝试检查“tdm”的内容时,我得到以下信息: Inspecting the TDM

tdm怎么一下子就空了?

希望有人可以帮助

0 投票
2 回答
314 浏览

r - R:支持向量机-TermDocumentMatrix上的自然语言处理

我已经开始从事一个需要自然语言处理并在 R 中建立支持向量机 (SVM) 模型的项目。

我想生成一个包含所有标记的术语文档矩阵。

例子:

然后我生成了一个 TDM:

我实际上在数据集中有三个文件:“从第 2 个月开始,未测量 AST 和总胆红素。”,“16:其他 - 评论栏中需要评论;07/02/2004/GENOTYPING;SF- 基因分型同意直到T4.",
"M6 离访问窗口还有 13 天" 所以它应该显示 3 列文件。但我这里只显示一列。

有人可以给我一些建议吗?

0 投票
1 回答
224 浏览

r - R:mgsub之后的DocumentTermMatrix错误频率

我有一个 DocumentTermMatrix,我想替换本文档中的特定术语并创建一个频率表。

起点是原始文件,如下:

当我创建原始文档的频率表时,我得到了正确的结果:

到目前为止,一切都很好。但是,如果替换文档中的某些术语,则新的频率表会得到错误的结果:

显然或者文档中的某些索引可能是错误的,因为即使是相同的术语在计算术语时也不会被视为相同。

这个结果应该是理想的情况:

谁能帮我找出问题所在?

提前谢谢

0 投票
1 回答
191 浏览

r - 使用 R 进行文本挖掘:使用 sub

我正在使用 R 进行一个项目,并且我开始弄脏它。

在第一部分中,我尝试清理向量 msg 的数据。但是后来当我构建 时termdocumentmatrix,这些字符仍然出现。我想删除少于 4 个字母的单词并删除标点符号

0 投票
1 回答
7367 浏览

r - 使用 quanteda 逐步创建 dfm

我想分析一个大(n = 500,000)个文档语料库。我正在使用quanteda预期 tm_map()from更快tm。我想逐步进行,而不是使用dfm(). 我有这样做的理由:在一种情况下,我不想在删除停用词之前进行标记,因为这会导致许多无用的二元组,在另一种情况下,我必须使用特定于语言的程序对文本进行预处理。

我希望实现这个序列:
1)删除标点符号和数字
2)删除停用词(即在标记化之前以避免无用的标记)
3)使用 unigrams 和 bigrams 进行标记
4)创建 dfm

我的尝试:

奖金问题 如何删除稀疏令牌quanteda?(即相当于removeSparseTerms()in tm


更新 根据@Ken的回答,这里是逐步进行的代码quanteda

1)删除自定义标点和数字。例如,请注意 ie2010 语料库中的“\n”

关于人们可能更喜欢预处理的原因的进一步说明。我目前的语料库是意大利语,这种语言的文章与带有撇号的单词相关联。因此,顺子dfm()可能导致不精确的标记化。例如:

将为同一个单词(“un'abile”和“l'abile”)生成两个单独的标记,因此这里需要一个额外的步骤gsub()

2) 在quanteda标记化之前,无法直接在文本中删除停用词。在我之前的示例中,必须删除“l”和“un”,以免产生误导性的二元组。这可以tmtm_map(..., removeWords).

3) 代币化

4)创建dfm:

5)去除稀疏特征

0 投票
1 回答
164 浏览

r - 如何在 TermDocumentMatrix 中将行合并为一行?

我正在尝试将行合并到行中TermDocumentMatrix

(我知道每一行代表每个单词)

ex) cabin, staff -> crews

因为“客舱、员工和船员”的意思相同,所以我试图将代表“客舱、员工”的行合并为代表“船员”的一行。

但是,它根本不起作用。

R 说argument "weighting" is missing, with no default

我输入的代码如下

在 TermDocumentMatrix 中组合行可能不是正确的方法

请修复此代码或建议更好的方法来解决此问题。

提前致谢。

0 投票
0 回答
555 浏览

r - 在R中将频率表直接转换为TDM

我有以下数据,其中包含我使用 Python 脚本提取的“频率”信息。我想使用这些信息WordCloud2在 R中生成一个。

由于我已经在上一步中完成了数据预处理和清理,因此我无需执行我正在阅读的所有教程中向我解释的步骤,例如:

但是,我仍然需要将我的数据转换为适当的矩阵,以便正确对其进行索引以生成 a WordCloud,此索引过程通常包括以下步骤:

我一直在寻找应该采用什么格式的示例,以便我可以将频率表直接编码为WordCloud2. 谁能指出我的代码方向,因为到目前为止直接将我的表调用到 TDM 中还没有工作,例如:

我收到的错误如下:

尝试时,如下所示使用as.TermDocumentMatrix,我收到以下错误: