问题标签 [term-document-matrix]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
676 浏览

java - 如何从多个字段组合中获得 Term-Doc 频率?

我已经从一组文档中用 lucene 编写了一个索引。我的文档有 2 个字段,并被添加到索引中,如下所示:

我想阅读索引并获取每个(术语,文档)对的术语频率。

如果我只有 1 个字段,比如说“文本”,我会使用以下代码:

但是,由于我有 2 个字段(“标题”和“文本”),为了获得(术语,文档)对的总术语频率,我首先需要get every (term, doc) pair frequency for the "Title" field将它们保存在内存中,然后get every (term, doc) pair frequency for the "Text" field手动组合它们对于返回的每个唯一 (term, doc) 对。

因此,此方法很可能会多次迭代 (term, doc) 对,因为相同的 (term, doc) 对可能同时存在于 Title”和“Text”字段中(如果文档具有相同的术语在他的“标题”和“文本”中)。

Lucene API 有什么方法可以遍历所有组合的字段吗?(避免多次重复相同的对)

0 投票
1 回答
130 浏览

r - 将函数应用于多个文档术语矩阵

我有 5 个文档术语矩阵,例如 DTM1、DTM2、DTM3、DTM4、DTM5。
现在我编写了一个名为 myBarPlot(DTM, title, color) 的函数,它接受一个 DocumentTermMatrix 和一个标题(字符)到每个绘图并为每个绘图单独颜色。

现在我如何将我所有的 DTM 作为参数传递给函数 myBarPlot 并生成条形图。我希望这发生在一个循环中。
像这样的东西。

因此,目标是将任何 R 对象作为参数传递给 for 循环。它可以是 DTM 或多个数据帧等。

0 投票
0 回答
356 浏览

r - 通过 R 中的术语文档矩阵计算数字的频率

我开始使用tm包并在术语文档矩阵函数中遇到问题。我知道通过这个函数,我们可以得到一组文档中单词的频率。但我注意到它没有显示“数字”的频率。它目前仅显示ALPHA 数字项的频率。

请让我知道我在这里缺少什么。

0 投票
4 回答
112 浏览

python - 保留给定向量中的单词并删除其他单词

我有一个列表,比如 10,000 个字符串 (A)。我还有一个单词向量(V)。

我想要做的是修改 A 的每个字符串以仅保留字符串中存在于 V 中的那些单词并删除其他单词。

例如,假设 A 的第一个元素是"one two three check test"。V 是向量["one", "test", "nine"]。因此,A 的第一个元素的修改版本应该如下所示"one test"。整个过程需要对每个字符串 A 重复。对于每次比较,V 将保持不变。

我正在做类似以下的事情(这可能有一些错误,但我只想说明我是如何解决这个问题的)。

以上方式非常缓慢且效率低下。我怎样才能快速有效地实现它?

0 投票
2 回答
909 浏览

python - 如何在 scikit CountVectorizer 中选择词汇

我使用 scikit CountVectorizer将文档集合转换为令牌计数矩阵。我还使用了它的 max_features,它考虑了按语料库中的词频排序的最高 max_features。

现在我想分析我选择的语料库,特别是我想知道所选词汇中标记的频率。但我无法找到一种简单的方法来做到这一点。所以请在这方面帮助我。

0 投票
1 回答
599 浏览

r - 错误:继承(doc,“TextDocument”)不是 TRUE

我正在运行以下代码块

当我在控制台中运行它时,它运行良好。但是,当我将它作为 RMD 的一部分包含并尝试编织 HTML(ioslides)时,我收到一个错误:

错误:

继承(doc,“TextDocument”)不是 TRUE

0 投票
0 回答
145 浏览

r - R中的文本分析

我有一个大型数据集(460 Mb),其中有一列 - 包含 386551 行的日志。我希望使用聚类和 N-Gram 方法来形成词云。我的代码如下:

这给了我如下结果:

然后我使用以下方法将其转换为 dgMatrix:

在尝试使用以下内容时,我收到内存大小错误:

请进一步提出建议,因为我是文本分析的新手。

0 投票
1 回答
559 浏览

r - 文档术语矩阵之间的“差异”

假设我有一组100文件,70谈到政治和30数学(我知道这是一个奇怪的组合)。我的目标是通过多维缩放分析、网络分析、som 等方法在 xy 上表示它们。当我考虑整套文档时,我会这样做:

  • 我制作了一个包含 100 个元素的语料库 ( docs );
  • 从语料库中,我创建了一个文档术语矩阵(dtm);
  • 从 dtm 我创建了一个关于组成文档的术语或文档本身的距离矩阵(dist)(根据我想要表示的内容)。

显然我可以为两者制作单独的图形,但我想做一些不同的事情。我有三个语料库(docs_totdocs_Pdocs_M)和三个文档术语矩阵(dtm_totdtm_Pdtm_M)。

解决方案:

1) 表示 xy 上的文件总数,对政治文件和数学文件进行不同的着色。通过这种方式,我可以查看它们是否代表 xy 上的自然集群。

2) 对差异进行网络分析。知道dtm_P只有dtm_tot文档 (100)的子集 (70),是否有一种概念性的方法来子跟踪,例如dtm_Pdtm_tot ?

0 投票
1 回答
1084 浏览

r - R文本挖掘如何将文档分割成短语而不是术语

在使用 R 进行文本挖掘时,在对文本数据进行再处理后,我们需要创建一个文档术语矩阵以进行进一步探索。但是和中文类似,英文也有一些特定的阶段,例如“语义距离”,“机器学习”,如果将它们分割成单词,它的含义就完全不同了,我想知道如何将文档分割成阶段而不是词(词)。

0 投票
1 回答
769 浏览

r - R构造文档术语矩阵如何匹配其值由空格分隔的短语组成的字典

在使用 R 进行文本挖掘时,在对文本数据进行再处理后,我们需要创建一个文档术语矩阵以进行进一步探索。但是和中文类似,英文也有一些特定的阶段,比如“语义距离”、“机器学习”,如果你把它们分割成单词,它就有完全不同的含义,我想知道如何匹配预定义的字典值由空格分隔的术语组成,例如包含“语义距离”、“机器学习”。如果一个文档是“我们可以使用机器学习的方法来计算词的语义距离”,当将该文档应用于字典[“语义距离”,“机器学习”]时,它将返回一个1x2矩阵:[语义距离,1 ;机器学习,1]