“term-document-matrix”的相关标签问题

0 投票

1 回答

708 浏览

r - R：TermDocumentMatrix - 创建时出错

我正在尝试获取 twitter 数据并创建 wordcloud，但我的代码在创建 TermDocumentMatrix 时出错。我的代码如下

创建 TermDocumentMatrix 之前没有错误。我得到的错误如下

mclapply(x$content[i], function(d) tm_reduce(d, x$lazy$maps)) 中的警告：调度核心 1 在用户代码中遇到错误，作业的所有值都会受到影响 mclapply(unname( content(x)), termFreq, control) : 计划核心 1 在用户代码中遇到错误，作业的所有值都会受到影响错误”堆栈跟踪（最里面的第一个）：74：FUN
73：lapply
72：setNames
71：as.list.VCorpus
70：as.list
69：lapply
68：meta.VCorpus
67：meta
66： TermDocumentMatrix.VCorpus
65 ：TermDocumentMatrix
64 : as.matrix
63：观察事件处理程序
1：运行应用程序

我已经添加了lazy = TRUE，content_transformer(tolower)但仍然出现错误。

r term-document-matrix mclapply

2016-05-07T13:10:37.250

0 投票

0 回答

1056 浏览

r - R：创建 termDocumentMatrix() 对象时出错

这是我用来为训练数据创建 termdocumentmatrix 对象的代码：

它有效！机器没有抱怨。

但是，当我使用相同的技术为验证数据集创建一个时，机器会抱怨！

这是我用来为验证集创建 termdocumentmatrix 对象的代码。请注意，唯一的区别是我在控件中添加了“字典”参数：

但是，我不断收到以下错误消息：

simple_triplet_matrix 中的错误（i = i，j = j，v = as.numeric（v），nrow = length（allTerms），：'i，j，v'不同的长度

我已经阅读了很多帖子，包括：

我尝试了他们所有建议的解决方案，但没有一个有效。

我想补充的一点是，只有当我使用超过 2000 条推文时才会出现问题。

关于输入数据的注意事项：

输入数据是一个包含两列的数据表，其中一列名为“SentimentText”（您在上面的代码中看到）。

在这一列中，每一行是一条推文，每条推文是一个文本字符串，即 character()。

一条示例推文，也就是一个行数据，如下所示：“我今天过得很愉快！:>”

非常感谢任何帮助！

r term-document-matrix

2016-05-10T06:47:52.240

0 投票

2 回答

691 浏览

text-mining - 将 TermDocumentMatrix 导入 R

我正在研究 R 的 tm 包中的定性分析项目。我已经建立了一个语料库并创建了一个术语文档矩阵，长话短说我需要编辑我的术语文档矩阵并合并它的一些行。为此，我已将其从 R 中导出，使用

然后我将 csv 文件导入回 R，但我正在努力弄清楚如何让 R 将其读取为 aTermDocumentMatrix或DocumentTermMatrix.

我尝试使用以下示例代码的建议但无济于事。

它似乎一直在阅读我的矩阵，就好像它是一个语料库，每个单元格都是一个文档。

是否有任何方法可以导入 csv 矩阵，该矩阵将被读取为termdocumentmatrix或documenttermmatrix不让 R 读取 csv，就好像每个单元格都是文档一样？

text-mining tm term-document-matrix

2016-05-18T18:47:07.400

0 投票

1 回答

567 浏览

r - 空词文档矩阵

每当我尝试检查我的频率时，我似乎遇到了问题。词和联想。

当我制作 tdm 时，我得到以下信息： TermDocumentMatrix

我可以在大量文档中看到我有很多要使用的术语。然而！

当我尝试检查“tdm”的内容时，我得到以下信息： Inspecting the TDM

tdm怎么一下子就空了？

希望有人可以帮助

r twitter term-document-matrix

2016-05-28T10:41:29.287

0 投票

2 回答

314 浏览

r - R：支持向量机-TermDocumentMatrix上的自然语言处理

我已经开始从事一个需要自然语言处理并在 R 中建立支持向量机 (SVM) 模型的项目。

我想生成一个包含所有标记的术语文档矩阵。

例子：

然后我生成了一个 TDM：

我实际上在数据集中有三个文件：“从第 2 个月开始，未测量 AST 和总胆红素。”，“16：其他 - 评论栏中需要评论；07/02/2004/GENOTYPING；SF- 基因分型同意直到T4.",
"M6 离访问窗口还有 13 天" 所以它应该显示 3 列文件。但我这里只显示一列。

有人可以给我一些建议吗？

r nlp svm tm term-document-matrix

2016-06-15T14:51:19.197

0 投票

1 回答

224 浏览

r - R：mgsub之后的DocumentTermMatrix错误频率

我有一个 DocumentTermMatrix，我想替换本文档中的特定术语并创建一个频率表。

起点是原始文件，如下：

当我创建原始文档的频率表时，我得到了正确的结果：

到目前为止，一切都很好。但是，如果替换文档中的某些术语，则新的频率表会得到错误的结果：

显然或者文档中的某些索引可能是错误的，因为即使是相同的术语在计算术语时也不会被视为相同。

这个结果应该是理想的情况：

谁能帮我找出问题所在？

提前谢谢

r tm term-document-matrix

2016-06-24T11:38:28.020

0 投票

1 回答

191 浏览

r - 使用 R 进行文本挖掘：使用 sub

我正在使用 R 进行一个项目，并且我开始弄脏它。

在第一部分中，我尝试清理向量 msg 的数据。但是后来当我构建时termdocumentmatrix，这些字符仍然出现。我想删除少于 4 个字母的单词并删除标点符号

r text-mining gsub term-document-matrix

2016-07-12T17:38:53.453

0 投票

1 回答

7367 浏览

r - 使用 quanteda 逐步创建 dfm

我想分析一个大（n = 500,000）个文档语料库。我正在使用quanteda预期会比tm_map()from更快tm。我想逐步进行，而不是使用dfm(). 我有这样做的理由：在一种情况下，我不想在删除停用词之前进行标记，因为这会导致许多无用的二元组，在另一种情况下，我必须使用特定于语言的程序对文本进行预处理。

我希望实现这个序列：
1）删除标点符号和数字
2）删除停用词（即在标记化之前以避免无用的标记）
3）使用 unigrams 和 bigrams 进行标记
4）创建 dfm

我的尝试：

奖金问题 如何删除稀疏令牌quanteda？（即相当于removeSparseTerms()in tm。

更新根据@Ken的回答，这里是逐步进行的代码quanteda：

1）删除自定义标点和数字。例如，请注意 ie2010 语料库中的“\n”

关于人们可能更喜欢预处理的原因的进一步说明。我目前的语料库是意大利语，这种语言的文章与带有撇号的单词相关联。因此，顺子dfm()可能导致不精确的标记化。例如：

将为同一个单词（“un'abile”和“l'abile”）生成两个单独的标记，因此这里需要一个额外的步骤gsub()。

2) 在quanteda标记化之前，无法直接在文本中删除停用词。在我之前的示例中，必须删除“l”和“un”，以免产生误导性的二元组。这可以tm用tm_map(..., removeWords).

3) 代币化

4）创建dfm：

5）去除稀疏特征

r text-analysis term-document-matrix quanteda

2016-08-13T09:54:01.820

0 投票

1 回答

164 浏览

r - 如何在 TermDocumentMatrix 中将行合并为一行？

我正在尝试将行合并到行中TermDocumentMatrix

（我知道每一行代表每个单词）

ex) cabin, staff -> crews

因为“客舱、员工和船员”的意思相同，所以我试图将代表“客舱、员工”的行合并为代表“船员”的一行。

但是，它根本不起作用。

R 说argument "weighting" is missing, with no default

我输入的代码如下

在 TermDocumentMatrix 中组合行可能不是正确的方法

请修复此代码或建议更好的方法来解决此问题。

提前致谢。

r text-mining term-document-matrix

2016-10-03T06:24:43.400

0 投票

0 回答

555 浏览

r - 在R中将频率表直接转换为TDM

我有以下数据，其中包含我使用 Python 脚本提取的“频率”信息。我想使用这些信息WordCloud2在 R中生成一个。

由于我已经在上一步中完成了数据预处理和清理，因此我无需执行我正在阅读的所有教程中向我解释的步骤，例如：

但是，我仍然需要将我的数据转换为适当的矩阵，以便正确对其进行索引以生成 a WordCloud，此索引过程通常包括以下步骤：

我一直在寻找应该采用什么格式的示例，以便我可以将频率表直接编码为WordCloud2. 谁能指出我的代码方向，因为到目前为止直接将我的表调用到 TDM 中还没有工作，例如：

我收到的错误如下：

尝试时，如下所示使用as.TermDocumentMatrix，我收到以下错误：

r matrix dataframe term-document-matrix

2016-10-17T16:28:53.583

问题标签 [term-document-matrix]

Reference