问题标签 [tm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
1501 浏览

r - R文本挖掘包DocumentTermMatrix在控制列表中有一个字典占用太多内存

我注意到它DocumentTermMatrix(myCorpus, control=list(dictionary=myDict))消耗的内存比DocumentTermMatrix(myCorpus)

为什么会这样?

有什么线索吗?

这是代码片段:

现在这是我的问题:

我猜有内存泄漏和可能的错误。

0 投票
2 回答
5438 浏览

r - Snowball Stemmer 只提取最后一个词

我想使用 R 中的 tm 包对纯文本文档语料库中的文档进行词干处理。当我将 SnowballStemmer 函数应用于语料库的所有文档时,只有每个文档的最后一个单词会被词干。

我认为这与将文档读入语料库的方式有关。用一些简单的例子来说明这一点:

0 投票
5 回答
5856 浏览

r - tm 包错误“无法将 DocumentTermMatrix 转换为普通矩阵,因为向量太大”

我创建了一个 DocumentTermMatrix,其中包含 1859 个文档(行)和 25722 个(列)。为了对该矩阵执行进一步的计算,我需要将其转换为常规矩阵。我想使用as.matrix()命令。但是,它返回以下错误:无法分配大小为 364.8 MB 的向量。

由于某种原因,只要将对象转换为常规矩阵,对象的大小似乎就会急剧增加。我怎样才能避免这种情况?

或者是否有另一种方法可以在 DocumentTermMatrix 上执行常规矩阵运算?

0 投票
6 回答
39084 浏览

r - R文本文件和文本挖掘...如何加载数据

我正在使用 R 包tm,我想做一些文本挖掘。这是一个文档,被视为一袋单词。

我不了解有关如何加载文本文件和创建必要对象以开始使用诸如...等功能的文档。

所以假设这是我的文档“这是对 R 负载的测试”

如何加载数据以进行文本处理并创建对象 x?

0 投票
1 回答
3329 浏览

r - 在 tm DocumentTermMatrix 中包含短标记

编辑:这是工作区中的对象发生冲突并导致意外行为的问题。

我正在尝试使用以下代码从文档创建 DocumentTermMatrix。该文档包含许多 1 和 2 字符标记。但是,即使将最小字长设置为 1 个字符,生成的矩阵也包含 699 个文档和 0 个术语。

尽管数据中有许多 1 和 2 字符标记,但任何人都可以解释为什么没有创建标记?这是一个示例数据条目:

0 投票
3 回答
1683 浏览

regex - 从语料库中删除除 html 标签之外的所有内容

我正在使用包tm。我有一个充满 html 文档的语料库,我想删除除 html 标签之外的所有内容。几天来我一直在尝试这样做,但我似乎无法找到任何好的解决方案。

例如,假设我有一个这样的文档:

我希望文档变成这样:

(或者使用结束标签,我真的不介意。)

我的目标是计算每个标签在文档中使用的次数。

0 投票
2 回答
14494 浏览

r - 关于 R 中的 data() 函数

使用下载的 R 包时,例如“tm”,给定的示例通常会加载示例数据集,例如

我怎样才能知道这个数据集到底是什么,采用哪种格式,矩阵还是向量?只有知道这种信息,我才能将我的输入自定义为这个包所需的格式。

0 投票
0 回答
4004 浏览

r - tm 包错误:定义文档术语矩阵时出错

我正在使用“tm”包分析 Reuters 21578 语料库,即 1987 年以来的所有路透社新闻文章。将 XML 文件导入 R 数据文件后,我清理文本——转换为纯文本、转换为小写、删除停用词等(如下所示)——然后我尝试将语料库转换为文档术语矩阵但收到一条错误消息:

UseMethod(“Content”,x)中的错误:没有适用于“内容”的方法应用于“字符”类的对象

在文档术语矩阵之前,所有预处理步骤都可以正常工作。

我创建了语料库的一个非随机子集(包含 4000 个文档),并且文档术语矩阵命令可以正常工作。

我的代码如下。谢谢您的帮助。

0 投票
1 回答
912 浏览

r - tm 如何与雪互动?

高性能任务视图说明tm可以使用雪进行并行文本挖掘(High-Performance and Parallel Computing with R)。但是,我没有找到任何示例来说明如何做到这一点,尽管我发现了一些关于并行计算的讨论tmR/Finance 2012)。任何人都可以阐明如何tm与由创建的集群接口snow

编辑:见下面 BenBarnes 的评论。具体来说:

根据?tm_startCluster,该函数查找 MPI 集群(不是 SOCK 集群)和“允许 [s] 'tm' 使用集群”。也许这将是 hadoop 的替代方案,因为在给定一些先决条件的情况下,snow可以设置 MPI 集群。

0 投票
1 回答
5389 浏览

r - R tm 包创建N个最常见术语的矩阵

我使用R 中的包termDocumentMatrix创建了一个。tm

我正在尝试创建一个包含 50 个最常出现的术语的矩阵/数据框。

当我尝试转换为矩阵时,出现此错误:

所以我尝试使用 Matrix 包转换为稀疏矩阵:

我尝试使用以下方法访问 tdm 的不同部分:

这是其他一些信息:

我的理想输出是这样的:

有什么建议么?