“tm”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

1402 浏览

r - 您如何在 R 的 tm 包中静默保存检查对象？

当我将 inspect() 对象保存在 R 的 tm 包中时，它会打印到屏幕上。它确实将我想要的数据保存在 data.frame 中，但是我有数千个文档要分析，并且打印到屏幕上占用了我的内存。

我已经尝试了所有我能想到的技巧。capture.output() 改变对象（不是想要的效果），sink() 也是如此。dev.off() 不起作用。invisible() 什么都不做。suppressWarnings()、suppressMessages() 和 try() 不出所料地什么都不做。检查命令中没有静默或静默选项。

我能得到的最接近的是

值得注意的是，它没有给出相同的data.frame，但如果我需要沿着这条路线走，很容易。任何其他（不那么老套）的建议都会有所帮助。谢谢。

Windows 7 64 位 R-3.0.1 tm 软件包是最新版本 (0.5-9.1)。

r inspect tm

2013-09-11T19:14:54.280

0 投票

1 回答

1150 浏览

r - 使用 tm 包计算相似度矩阵

我需要创建一个相似度矩阵，下面的代码就是我目前所拥有的。但是，结果不是我需要的。该代码返回一个有 16 行的矩阵，它是文档术语矩阵中的 8 个唯一术语与工作标题中的 2 个唯一术语的乘积。

我需要的是一个只有 4 行（每个标题一个）的矩阵，每一行表示 workTitle 中每个单词与标题中每个术语之间的编辑距离之和。

这是上面代码的输出：

r matrix tm

2013-09-11T20:56:59.343

0 投票

1 回答

2125 浏览

r - R tm stemCompletion 生成 NA 值

当我尝试将 stemCompletion 应用于语料库时，此函数会生成 NA 值..

这是我的代码：

（其中一个结果是：[[2584]] 分区计划）

下一步是填充语料库，因此：

但结果是这样的

[[2584]] 北美工厂

下一步应该是创建一个包含事务的关联矩阵，然后是先验规则，但如果我继续尝试获取规则，inspect(rules) 函数会给我这个错误：

有什么问题？我想NA值不能正确生成关联矩阵，然后是好的规则..这是问题吗？如果是这样，我该如何解决？

这是问题的摘要：

r stemming tm

2013-09-13T09:08:16.443

0 投票

0 回答

480 浏览

r - 带有 tm 的文本挖掘大型数据框挂起。

我正在使用 R 包 tm 运行一些文本挖掘分析。当我将数据加载到语料库并尝试运行时

这些查询似乎都挂在我身上，并且需要很长时间才能完成。我得到了 500k 行搜索查询之间的东西。我怎样才能最好地在这个大数据集上运行 tm 包命令，而不会占用我的内存和挂在我身上的机器。

仅供参考 - 我的机器上有超过 8GB 的内存。

r text-mining tm

2013-10-03T13:43:22.213

0 投票

2 回答

5826 浏览

r - 是否可以为 RTextTools 包提供自定义停用词列表？

使用 tm 包，我可以这样做：

mystopwords作为我要删除的其他停用词的向量。

但是我找不到使用 RTextTools 包的等效方法。例如：

是否有可能做到这一点？我真的很喜欢这个RTextTools界面，很遗憾不得不回到tm.

r text-mining stop-words tm

2013-10-08T04:37:19.460

0 投票

3 回答

953 浏览

r - Twitter Mining using R (twitteR + tm): error using tolower conversion

我在处理使用 twitteR 包的 CRAN 版本提取的 twitter 数据时遇到了一些问题。特别是 tm 包的转换率较低。

我正在关注这个例子

这就是我目前正在做的事情：

其他转换完成得很好（如果 tolower 没有运行）。然而，较低的转换返回：

我怀疑这可能是由其中一条推文中的某些字符引起的，但我该如何追查问题？

编辑：确实，某些字符似乎会导致这种情况，例如：

这里的“\ud83d\ude1c”部分会导致错误。关于如何从推文中自动删除这些短语（这个是： http: //www.charbase.com/1f61c-unicode-face-with-stuck-out-tongue-and-winking-eye ）的任何想法？

r twitter tm

2013-10-08T12:54:44.780

0 投票

1 回答

1624 浏览

r - 在 R 中处理大型文本文件

我有一个包含 600 万条消息的 6GB 数据集，我想处理这些消息 - 我的目标是为我的数据集创建一个文档术语矩阵，但我需要进行一些预处理（去除 HTML 标记、词干提取、停用词删除、等）首先。

以下是我目前尝试做这一切的方式：

ls 在每一行：

的每一行sampletrainDT是一条消息，主列是Body。其他包含元数据，如 docid 等。

当我只使用数据的一个子集（10%）时，它运行得非常快（10 分钟），但如果我使用完整的数据集，它甚至不会完成，因为我在这条线上用完了 RAM sampletrainDT[, Body := gsub("<(.|\n)*?>", " ", Body)] # remove HTML tags。在两行之间运行 gc() 似乎并没有改善这种情况。

我花了几天时间在谷歌上搜索一个解决方案，但我还没有找到一个好的解决方案，所以我很想听听其他在这方面有很多经验的人的意见。以下是我正在考虑的一些选项：

ff 或 bigmemory - 难以使用且不适合文本
数据库
一次读取块，处理并附加到文件（更适合 Python？）
来自 tm 库的 PCorpus
Map-reduce - 在本地完成，但希望以内存友好的方式
R只是不是这个工具吗？

我想让它在单台机器（16 GB 笔记本电脑）上运行，而不是在 EC2 上使用大型机器。如果处理得当，6GB 的数据似乎并非不可逾越！

r large-files text-processing tm

2013-10-17T15:15:54.073

0 投票

1 回答

5227 浏览

r - 针对特定的感兴趣词绘制高度相关的词

我正在尝试绘制一个单词的最高相关性。例如，我想绘制单词“鲸鱼”的前十个相关性。有人可以帮助我执行类似的命令吗？如果有帮助，我已经安装了 RGraphViz。

r graphviz tm

2013-10-23T18:11:45.947

0 投票

4 回答

26003 浏览

r - 在 R 中查找 ngram 并在整个语料库中比较 ngram

我开始使用 R 中的 tm 包，所以请多多包涵，并为文字的大墙道歉。我创建了一个相当大的社会主义/共产主义宣传语料库，并想提取新创造的政治术语（多个词，例如“斗争-批评-改造运动”）。

这是一个两步的问题，一个是关于我目前的代码，一个是关于我应该如何继续。

第 1 步：为此，我想首先识别一些常见的 ngram。但我很早就被卡住了。这是我一直在做的事情：

我加载到 R 中的语料库可以很好地与我扔给它的大多数功能一起使用。从我的语料库创建 TDM、查找常用词、关联、创建词云等，我没有遇到任何问题。但是，当我尝试使用tm FAQ中概述的方法来识别 ngram 时，我显然在 tdm-constructor 上犯了一些错误：

我收到此错误消息：

有任何想法吗？“a”不是正确的类/对象吗？我很困惑。我认为这里有一个根本性的错误，但我没有看到它。:(

第 2 步：然后，当我将语料库与其他语料库进行比较时，我想识别出显着过多的 ngram。例如，我可以将我的语料库与大型标准英语语料库进行比较。或者我创建可以相互比较的子集（例如苏联与中国共产党的术语）。你有什么建议我应该如何去做吗？我应该研究的任何脚本/功能？只是一些想法或指示会很棒。

谢谢你的耐心！

r text-mining n-gram tm

2013-10-27T06:08:01.330

0 投票

2 回答

1139 浏览

text-mining - 潜在狄利克雷分配 (LDA) 的文档数量

感谢您花时间看这个问题。我最近从网上抓取了一些文本，并将输出保存为一个大约 300 页的 .txt 文件。我正在尝试实施 LDA 来构建主题，并且熟悉这样做的技术方面。

但是，我的问题是 LDA 使用一个文件还是多个文件是否重要（即，如果我正在检查 200 封电子邮件，我是否需要标记、删除停用词和标点符号，并阻止大文件，然后将每封电子邮件保存为在实现 LDA 之前单独的 .txt 文件，或者我可以在一个文件中完成所有操作吗？

我现在面临的问题是，如果我要将所有内容分解为单独的 .txt 文件，文档的预处理将需要很长时间。有什么建议么？非常感谢。

text-mining lda tm

2013-10-28T13:50:54.403

问题标签 [tm]

Reference