问题标签 [term-document-matrix]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
410 浏览

python - 将术语文档矩阵转换为画面可读的表格

我使用 R tm 包创建了一个术语文档矩阵,并通过将其转换为数据框将其导出为 csv。

术语文档矩阵的样本部分:

如何将其转换为下表中包含标题和仅包含其中的术语的表格,以便在表格中进行进一步分析?

0 投票
1 回答
356 浏览

r - 创建 Bi Grams 的术语文档矩阵?

我正在对大型数据集进行文本挖掘。我能够创建 TDM 和 DTM,并能够使用 TDF 和 IDF 执行我的分析。但是我们可以在 R 中为 Bi Grams 创建一个术语文档矩阵或文档术语矩阵吗?我知道 Mahout 中提供了类似的设施,但我正在寻找一种在 R 中执行此操作的方法?

0 投票
2 回答
343 浏览

r - 词频矩阵

我有一个这样的字符串:

m<-"abcdabcdbcadacbddabcc..."

我想生成一个这样的矩阵:

在此处输入图像描述

我怎么能在 r 中做到这一点?

0 投票
1 回答
2127 浏览

r - R中未使用的参数错误使用tm作为词频矩阵?

我是编程和 R 的新手。我正在尝试使用 Austin 包中的 wordfish 函数。我从语料库创建了一个术语文档矩阵,但无法成功使用 wordfish 命令:

wordfish 函数的正确用法是 wordfish(wfm,dir=c(1,10))。我以为我将 wcdata 定义为词频矩阵,但我一定做错了什么。非常感谢任何见解!

0 投票
1 回答
462 浏览

r - R DocumentTermMatrix 丢失的结果少于 100

我正在尝试将语料库输入 DocumentTermMatrix(我简写为 DTM)以获取术语频率,但我注意到 DTM 不能保留所有术语,我不知道为什么!一探究竟:

到目前为止,一切都很好。

但是现在,我尝试将 C 输入 DTM,但它并没有从另一端出来!看:

哪里的所有结果都小于 100?或者它是某种2字符的东西?我也试过:

无济于事。是什么赋予了?

0 投票
1 回答
372 浏览

r - 给定 TermDocumentMatrix,如何将其转换为数值矩阵?

我已经生成了termDocumentMatrix如下所示的:

然后我想将它转换为数字矩阵,它显示一个错误。我使用的命令是:

然后矩阵变成这样的列表:

我哪里做错了?

0 投票
3 回答
4131 浏览

solr - 如何告诉 Solr 返回每个文档的热门搜索词?

我对 Solr 中的查询有疑问。当我使用多个搜索词执行查询时,这些搜索词都由 OR(例如q=content:(foo OR bar OR foobar))在逻辑上链接,Solr 会返回一个与这些词中的任何一个匹配的文档列表。但是 Solr没有返回的是哪些文档受到了哪些术语的影响。所以在上面的例子中,我想知道我的结果列表中的哪些文档包含术语foo等。有了这些信息,我将能够创建一个术语文档矩阵。

所以我的问题是:我怎样才能告诉 Solr 给我那条缺失的信息?我确定它在某个地方,否则整个搜索将无法正常工作。但我错过了什么?谢谢你的帮助。

PS:作为一种解决方法,我正在对所有搜索词执行单个 Solr 查询。但正如您可以想象的那样,由于搜索词的数量可能超过 50 个,这在性能方面是一场灾难 :(

0 投票
4 回答
12364 浏览

r - 创建具有 4M 行的语料库和 DTM 的更有效方法

我的文件有超过 400 万行,我需要一种更有效的方法将我的数据转换为语料库和文档术语矩阵,以便我可以将其传递给贝叶斯分类器。

考虑以下代码:

输出:

我的问题是,我可以用什么来更快地创建语料库和 DTM?如果我使用超过 300k 行,它似乎非常慢。

我听说我可以使用data.table,但我不确定如何使用。

我也查看了qdap包,但是在尝试加载包时它给了我一个错误,而且我什至不知道它是否会起作用。

参考。http://cran.r-project.org/web/packages/qdap/qdap.pdf

0 投票
3 回答
15078 浏览

r - R中的TermDocumentMatrix错误

我一直在研究 R 中 {tm} 包的许多在线示例,试图创建一个 TermDocumentMatrix。创建和清理语料库非常简单,但是当我尝试创建矩阵时总是遇到错误。错误是:

UseMethod("meta", x) 中的错误:没有适用于 'meta' 的适用方法应用于“character”类的对象另外:警告消息:在 mclapply(unname(content(x)), termFreq, control) 中:所有计划的核心在用户代码中遇到错误

例如,这里是 Jon Starkweather 的文本挖掘示例中的代码。提前为这么长的代码道歉,但这确实产生了一个可重现的例子。请注意,错误出现在 {tdm} 函数的末尾。

0 投票
0 回答
128 浏览

r - 使用 R 进行文本挖掘

我见过类似的问题,但还没有找到我正在处理的问题的答案。我是第一次使用,所以如果有一个简单的解决方案,请原谅我。

我正在使用 R 包“tm”,我正在尝试从以下 WebKB 数据中创建一个逐个文档的矩阵:http ://www.cs.cmu.edu/afs/cs/project/theo -20/www/数据/

数据位于几个不同的文件夹中,每个文件夹都跟踪一个主题,但我已将这些文档合并到一个文件中。在所有文档中,只有一两个文档涉及多个主题。

好的,这就是我所做的:

到目前为止一切顺利,没有错误。但是当我在下一行做这个时

我收到以下错误

UseMethod("meta", x) 中的错误:没有适用于 'meta' 的方法应用于“try-error”类的对象另外:警告消息:1:在 mclapply(x$content[i],function(d ) tm_reduce(d, x$lazy$maps)) : 调度核心 1 在用户代码中遇到错误,作业的所有值都会受到影响 2: 在 mclapply(unname(content(x)), termFreq, control) : 所有调度核心在用户代码中遇到错误

如果有人能告诉我出了什么问题,我将不胜感激!此外,如果有更有效的方法来创建这个逐个文档矩阵,我会接受建议!最后,我需要取出这些 html 文件中的任何链接,是否有一个 R 函数可以解决这个问题?我在文档中没有看到任何内容,因此如果您对如何执行此操作也有建议,我们将不胜感激。

谢谢你的时间!