“term-document-matrix”的相关标签问题

0 投票

1 回答

66 浏览

r - 为什么在“tm”合并的术语文档矩阵中没有过滤掉停用词？

我正在使用该tm库构建一个术语文档矩阵。

然而，当我检查我的术语文档矩阵时，我发现还有几个停用词：

为什么会这样，我该怎么办？

r tm term-document-matrix

2015-08-19T20:45:55.263

0 投票

1 回答

811 浏览

r - 如何从 tm 存储术语文档矩阵的稀疏性和最大术语长度

如何在查找 ngram 时将术语文档矩阵的稀疏性和最大术语长度存储在 R 中的单独变量中？

如何将上述稀疏度、最大项长度、加权、非/稀疏条目存储在单独的变量中。

r nlp tm term-document-matrix

2015-10-07T16:06:20.547

0 投票

1 回答

600 浏览

java - 如何使用 Spark 从多个文档中获取术语文档矩阵？

我正在尝试从多个文档中生成一个术语文档矩阵。我可以从已经创建的矩阵中运行 LDA 模型，现在我需要这一步。我试图实现一个简单的术语文档矩阵，但现在我被困住了。我所做的是：

所以，这个函数给了我这样的结果：

我想这没关系，但现在我需要减少它并提取这样的输出：

我已经尝试了很多东西，但无法得到它......有人可以帮助我吗？

java apache-spark text-mining apache-spark-mllib term-document-matrix

2015-10-07T21:05:52.537

0 投票

1 回答

603 浏览

r - 计算术语文档矩阵，同时在字符串中查找单词

这个问题与我之前的问题有关。以相同的方式处理以空格分隔的单词

将其单独发布，因为它可以帮助其他用户轻松找到它。

问题是关于目前按包term document matrix计算的方式。tm我想稍微调整一下，如下所述。

目前，任何术语文档矩阵都是通过在文档中查找单词“milky”作为单独的单词（而不是字符串）来创建的。例如，让我们假设 2 个文档

根据当前算法的工作方式（tm包），“milky”将在第一个文档中找到，但在第二个文档中找不到，因为该算法将术语milky作为单独的单词查找。但是，如果该算法milky像函数grepl一样查找字符串，它也会在第二个文档中找到术语“milky”。

有人可以帮我创建一个满足我要求的术语文档矩阵（即能够milky在两个文档中找到术语。请注意，我不想要一个特定于单词的解决方案，或者milky，我想要一个通用的解决方案，我将更大规模地申请处理所有此类案件）？即使解决方案不使用tm包，也可以。我只需要最终得到一个满足我要求的术语文档矩阵。最终，我希望能够获得一个术语文档矩阵，以便其中的每个术语都应该在相关文档的所有字符串中作为字符串（而不仅仅是单词）进行查找（grepl例如计算术语文档矩阵时的功能）。

我用来获取术语文档矩阵的当前代码是

r text-mining tm term-document-matrix

2015-10-13T12:51:47.327

0 投票

2 回答

98 浏览

r - R：每个术语的查找频率——警告信息

我试图在马丁路德金的“我有一个梦想”演讲中找到每个术语的频率。我已将所有大写字母转换为小写字母，并删除了所有停用词。我在 .txt 文件中有文本，因此无法在此处显示。在文件中读取的代码如下：

然后我成功地执行了转换为小写并删除了停用词并将其命名为：

现在我在查找每个术语的频率时遇到了一些问题。我创建了一个语料库，检查了我的语料库，并创建了一个 TermDocumentMatrix，如下所示：

到目前为止一切都很好。但是，我随后编写了以下代码并收到以下警告消息：

我知道这是一个非常常见的警告信息，所以我先用谷歌搜索了它，但我找不到任何与术语频率有关的信息。我继续运行以下文本，看看它是否会运行并显示警告消息，但它没有。

我的目标只是找到术语的频率。我真诚地为提出这个问题道歉，因为我知道这个问题被问了很多。我只是不明白要对我的代码进行哪些更改。谢谢大家我很感激！

r frequency tm corpus term-document-matrix

2015-10-19T19:40:37.343

0 投票

1 回答

1120 浏览

python - 计算DataFrame中的词频

我正在尝试创建一个数据框，其中第一列（“Value”）在每一行中都有一个多字字符串，所有其他列的标签代表“Value”中所有字符串的唯一单词。我想用每个字符串（一行）的词频填充这个数据框，检查所有唯一的词（列）。从某种意义上说，创建一个简单的 TDM

但是，我收到一个错误：

我不确定出了什么问题，将感谢您的帮助此外，如果有更清洁的方法可以做到这一点（除了没有文本挖掘 - 安装问题），学习会很棒！

python pandas indexing dataframe term-document-matrix

2015-10-23T05:43:30.567

0 投票

1 回答

1150 浏览

r - 在 R 中用 igraph 在 R 中的 tdm 或 dtm 上绘制关键字/单词关联（findAssocs）？

我想根据 R 中的某些单词关联创建一个术语网络分析图，但我不知道如何超越绘制整个术语文档矩阵：

无论如何，是否可以将单词关联网络分析图（以及一般的单词关联条形图）应用于以下findAssocs数据？例如：

换句话说，我想可视化特定关键字与 R 中其他关键字的联系，但我不知道如何。

r plot igraph term-document-matrix

2015-11-01T23:11:52.067

0 投票

1 回答

1227 浏览

r - twitter 数据 <- termdocumentmatrix 中的错误

抛出错误 -

尝试在 Twitter 上搜索关键字，然后创建一个 wordcloud。删除所有标点符号，停止单词，删除数字，但似乎仍然不起作用。

任何帮助将不胜感激。

r twitter term-document-matrix

2015-11-15T16:49:12.777

0 投票

2 回答

876 浏览

r - R 如何使用 TermDocumentMatrix() 保持标点符号

我有一个大型数据框，我在其中识别字符串中的模式，然后提取它们。我提供了一个小子集来说明我的任务。我通过创建一个包含多个单词的 TermDocumentMatrix 来生成我的模式。我将这些模式与 stringi 和 stringr 包中的 stri_extract 和 str_replace 一起使用，以在“punct_prob”数据框中进行搜索。

我的问题是我需要在“punct_prob$description”中保持标点符号的完整性，以保持每个字符串中的字面含义。例如，我不能让 2.35 毫米变成 235 毫米。然而，我正在使用的 TermDocumentMatrix 过程正在删除标点符号（或至少是句点），因此我的模式搜索功能无法匹配它们。

简而言之...生成 TDM 时如何保持标点符号？我尝试在 TermDocumentMatrix 控制参数中包含 removePunctuation=FALSE 但没有成功。

检查结果 - 没有标点符号....

提前感谢您的帮助:)

r tm punctuation term-document-matrix

2015-11-27T10:01:53.223

0 投票

0 回答

97 浏览

r - R 中的 TermDocumentMatrix 不起作用

我的语料库看起来像这样：我的语料库 myCorpus1 已包含 33704 条推文。你可以在下面的代码中看到它。但是当我创建中期矩阵，即 TermDocument Matrix 时，只有 3732 个文档。我的问题是 TermDocumentMatrix 函数如何？我错过了什么吗？或者，这个函数不会把每条推文都当成一个文档，而是有自己的解析文档的方式？我想知道为什么术语很少。我猜一个 33704-tweet 文本中应该有超过 10902 个

任何帮助将不胜感激。

r twitter tm corpus term-document-matrix

2015-12-15T04:19:47.170

问题标签 [term-document-matrix]

Reference