问题标签 [term-document-matrix]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

147 问题

0 投票

0 回答

410 浏览

python - 将术语文档矩阵转换为画面可读的表格

我使用 R tm 包创建了一个术语文档矩阵，并通过将其转换为数据框将其导出为 csv。

术语文档矩阵的样本部分：

如何将其转换为下表中包含标题和仅包含其中的术语的表格，以便在表格中进行进一步分析？

python r text-mining term-document-matrix

2014-04-01T08:41:51.540

0 投票

1 回答

356 浏览

r - 创建 Bi Grams 的术语文档矩阵？

我正在对大型数据集进行文本挖掘。我能够创建 TDM 和 DTM，并能够使用 TDF 和 IDF 执行我的分析。但是我们可以在 R 中为 Bi Grams 创建一个术语文档矩阵或文档术语矩阵吗？我知道 Mahout 中提供了类似的设施，但我正在寻找一种在 R 中执行此操作的方法？

r matrix nlp text-mining term-document-matrix

2014-05-14T06:34:57.480

0 投票

2 回答

343 浏览

r - 词频矩阵

我有一个这样的字符串：

m<-"abcdabcdbcadacbddabcc..."

我想生成一个这样的矩阵：

在此处输入图像描述

我怎么能在 r 中做到这一点？

r text-mining word-frequency term-document-matrix

2014-05-23T13:45:36.297

0 投票

1 回答

2127 浏览

r - R中未使用的参数错误使用tm作为词频矩阵？

我是编程和 R 的新手。我正在尝试使用 Austin 包中的 wordfish 函数。我从语料库创建了一个术语文档矩阵，但无法成功使用 wordfish 命令：

wordfish 函数的正确用法是 wordfish(wfm,dir=c(1,10))。我以为我将 wcdata 定义为词频矩阵，但我一定做错了什么。非常感谢任何见解！

r package word-frequency term-document-matrix

2014-06-13T20:31:34.427

0 投票

1 回答

462 浏览

r - R DocumentTermMatrix 丢失的结果少于 100

我正在尝试将语料库输入 DocumentTermMatrix（我简写为 DTM）以获取术语频率，但我注意到 DTM 不能保留所有术语，我不知道为什么！一探究竟：

到目前为止，一切都很好。

但是现在，我尝试将 C 输入 DTM，但它并没有从另一端出来！看：

哪里的所有结果都小于 100？或者它是某种2字符的东西？我也试过：

和

无济于事。是什么赋予了？

r corpus term-document-matrix

2014-06-24T13:49:11.327

0 投票

1 回答

372 浏览

r - 给定 TermDocumentMatrix，如何将其转换为数值矩阵？

我已经生成了termDocumentMatrix如下所示的：

然后我想将它转换为数字矩阵，它显示一个错误。我使用的命令是：

然后矩阵变成这样的列表：

我哪里做错了？

r term-document-matrix

2014-07-17T16:33:41.583

0 投票

3 回答

4131 浏览

solr - 如何告诉 Solr 返回每个文档的热门搜索词？

我对 Solr 中的查询有疑问。当我使用多个搜索词执行查询时，这些搜索词都由 OR（例如q=content:(foo OR bar OR foobar)）在逻辑上链接，Solr 会返回一个与这些词中的任何一个匹配的文档列表。但是 Solr没有返回的是哪些文档受到了哪些术语的影响。所以在上面的例子中，我想知道我的结果列表中的哪些文档包含术语foo等。有了这些信息，我将能够创建一个术语文档矩阵。

所以我的问题是：我怎样才能告诉 Solr 给我那条缺失的信息？我确定它在某个地方，否则整个搜索将无法正常工作。但我错过了什么？谢谢你的帮助。

PS：作为一种解决方法，我正在对所有搜索词执行单个 Solr 查询。但正如您可以想象的那样，由于搜索词的数量可能超过 50 个，这在性能方面是一场灾难 :(

solr term-document-matrix

2014-07-30T13:27:13.030

0 投票

4 回答

12364 浏览

r - 创建具有 4M 行的语料库和 DTM 的更有效方法

我的文件有超过 400 万行，我需要一种更有效的方法将我的数据转换为语料库和文档术语矩阵，以便我可以将其传递给贝叶斯分类器。

考虑以下代码：

输出：

我的问题是，我可以用什么来更快地创建语料库和 DTM？如果我使用超过 300k 行，它似乎非常慢。

我听说我可以使用data.table，但我不确定如何使用。

我也查看了qdap包，但是在尝试加载包时它给了我一个错误，而且我什至不知道它是否会起作用。

参考。http://cran.r-project.org/web/packages/qdap/qdap.pdf

r data.table corpus term-document-matrix qdap

2014-08-15T16:57:16.517

0 投票

3 回答

15078 浏览

r - R中的TermDocumentMatrix错误

我一直在研究 R 中 {tm} 包的许多在线示例，试图创建一个 TermDocumentMatrix。创建和清理语料库非常简单，但是当我尝试创建矩阵时总是遇到错误。错误是：

UseMethod("meta", x) 中的错误：没有适用于 'meta' 的适用方法应用于“character”类的对象另外：警告消息：在 mclapply(unname(content(x)), termFreq, control) 中：所有计划的核心在用户代码中遇到错误

例如，这里是 Jon Starkweather 的文本挖掘示例中的代码。提前为这么长的代码道歉，但这确实产生了一个可重现的例子。请注意，错误出现在 {tdm} 函数的末尾。

r text-mining tm corpus term-document-matrix

2014-08-28T14:36:26.143

0 投票

0 回答

128 浏览

r - 使用 R 进行文本挖掘

我见过类似的问题，但还没有找到我正在处理的问题的答案。我是第一次使用，所以如果有一个简单的解决方案，请原谅我。

我正在使用 R 包“tm”，我正在尝试从以下 WebKB 数据中创建一个逐个文档的矩阵：http ://www.cs.cmu.edu/afs/cs/project/theo -20/www/数据/

数据位于几个不同的文件夹中，每个文件夹都跟踪一个主题，但我已将这些文档合并到一个文件中。在所有文档中，只有一两个文档涉及多个主题。

好的，这就是我所做的：

到目前为止一切顺利，没有错误。但是当我在下一行做这个时

我收到以下错误

UseMethod("meta", x) 中的错误：没有适用于 'meta' 的方法应用于“try-error”类的对象另外：警告消息：1：在 mclapply(x$content[i],function(d ) tm_reduce(d, x$lazy$maps)) : 调度核心 1 在用户代码中遇到错误，作业的所有值都会受到影响 2: 在 mclapply(unname(content(x)), termFreq, control) : 所有调度核心在用户代码中遇到错误

如果有人能告诉我出了什么问题，我将不胜感激！此外，如果有更有效的方法来创建这个逐个文档矩阵，我会接受建议！最后，我需要取出这些 html 文件中的任何链接，是否有一个 R 函数可以解决这个问题？我在文档中没有看到任何内容，因此如果您对如何执行此操作也有建议，我们将不胜感激。

谢谢你的时间！

r text-mining tm term-document-matrix

2014-08-28T16:04:40.653

1 2 3 4 5 6 7 8 9 10

问题标签 [term-document-matrix]

Reference