“tm”的相关标签问题_Stack Overflow中文网

0 投票

3 回答

3611 浏览

r - 如何从 csv 文件中读取表格中的文本

我是使用 tm 包的新手。我想读取一个 csv 文件，其中包含一个包含 2000 个文本的列和一个包含因子变量 yes/no 的第二列到语料库中。我的意图是将文本转换为矩阵并使用因子变量作为预测目标。我还需要将语料库划分为训练集和测试集。我阅读了一些文档，例如 tm.pdf 等，发现文档相对有限。这是我在同一主题上的另一个威胁之后的尝试，

使用

结果是

而不是 2000 条文本。

这里的标准程序如何？谢谢

r text-mining tm

2013-03-28T15:18:10.827

0 投票

3 回答

7864 浏览

r - 用于预测分析的 R tm 包。如何对新文档进行分类？

这是关于文本挖掘程序的一般问题。假设一个人有一个分类为 Spam/No_Spam 的文档语料库。作为标准程序，预处理数据、删除标点符号、停止词等。将其转换为 DocumentTermMatrix 后，可以构建一些模型来预测垃圾邮件/No_Spam。这是我的问题。现在我想使用为新文档构建的模型到达。为了检查单个文档，我必须构建一个 DocumentTerm* Vector*? 所以它可以用来预测 Spam/No_Spam。在 tm 的文档中，我发现使用例如 tfidf 权重将完整的语料库转换为矩阵。然后如何使用语料库中的 idf 转换单个向量？我每次都必须更改我的语料库并构建一个新的 DocumentTermMatrix 吗？我处理了我的语料库，将其转换为矩阵，然后将其拆分为训练和测试集。但是这里的测试集与完整集的文档矩阵在同一行中构建。我可以检查精度等，但不知道新文本分类的最佳程序是什么。

Ben，想象一下我有一个预处理的 DocumentTextMatrix，我将它转换成一个 data.frame。

添加了一个因子变量并建立了一个模型。

现在想象我给你一个新文档 d（之前不在你的语料库中），你想知道模型预测 spam/No_Spam。你如何做到这一点？

好的，让我们根据此处使用的代码创建一个示例。

注意我拿出了例子5

添加了因子变量 Spam_Classification 2 级 spam/No_Spam

我建立了一个模型 SVM Corpus.svm<-svm(Spam_Category~.,data=dtmFinal)

现在想象我有示例 5 作为新文档（电子邮件）我如何生成 Spam/No_Spam 值？？？

r tm

2013-04-01T20:22:19.357

0 投票

1 回答

393 浏览

r - CLUTO 文档术语矩阵到 tm DocumentTermMatrix

我有一个 cluto 格式的文档术语矩阵：

我想从这个文件创建 DocumentTermMatrix(tm package) 而不是语料库，这可能吗？

解决方案：

r text-mining tm cluto

metdos

2013-04-02T14:55:12.477

0 投票

1 回答

1041 浏览

r - findAssocs 和 numeric(0)

我正在尝试使用 tm 包在术语文档矩阵中查找与特定单词相关的单词。

我总是得到numeric(0)我的结果示例；

numeric(0)，那是什么意思？我想找到关系。任何建议都非常感谢！

r text text-mining tm

2013-04-10T16:01:36.790

0 投票

2 回答

657 浏览

c - 在 C 中使用 tm 时出现分段错误

所以我在下面发布了我的代码（对不起，我知道它很长），但是当我尝试使用 tm 结构执行任何操作时出现分段错误。我不知道为什么会出现此段错误，我很确定我以前可以正常工作，但是现在我无法正常工作。如果有人知道如何摆脱段错误，那就太好了。段错误出现在第一个嵌套的 if 语句中，位于代码块的中下部，它位于 if-else 的长块之后。

非常感谢！

c struct segmentation-fault time-t tm

2013-04-10T23:20:56.407

0 投票

1 回答

1016 浏览

r - R tm 包。在哪里可以找到 TermDocumentMatrix 组件的详细说明？我, j, v

例如，这是一个 tdm：

我一直在试图找到这些列 $i、$j、$v 的描述......非常感谢，

r tm

2013-04-12T14:28:12.497

0 投票

2 回答

4470 浏览

r - 如何使用 tm 创建 *.docx 文件的语料库？

我有一个混合文件类型的 MS Word 文档集合。有些文件是 *.doc，有些是 *.docx。我正在学习使用tm，并且我（或多或少*）使用以下方法成功创建了一个由 *.doc 文件组成的语料库：

此命令不处理 *.docx 文件。我假设我需要一个不同的读者。从这篇文章中，我了解到我可以自己编写（鉴于对我目前没有的 .docx 格式有很好的理解）。

readDOC 阅读器使用antiword来解析 *.doc 文件。是否有类似的应用程序可以解析 *.docx 文件？

或者更好的是，是否已经有一种使用 tm 创建 *.docx 文件语料库的标准方法？

* 或多或少，因为虽然文件进入并且是可读的，但对于每个文档，我都会收到以下警告：In readLines(y, encoding = x$Encoding) : incomplete final line found on 'path/to/a/file.doc'

r docx tm

2013-04-17T17:02:18.277

0 投票

2 回答

39635 浏览

r - 使用 tm-package 进行文本挖掘 - 词干提取

我正在使用tm-package 在 R 中进行一些文本挖掘。一切都很顺利。但是，在词干提取之后会出现一个问题 ( http://en.wikipedia.org/wiki/Stemming )。显然，有些词具有相同的词干，但重要的是不要将它们“放在一起”（因为这些词的含义不同）。

有关示例，请参见下面的 4 个文本。在这里，您不能互换使用“讲师”或“演讲”（“协会”和“关联”）。但是，这是在步骤 4 中完成的。

是否有任何优雅的解决方案如何手动为某些案例/单词实现这一点（例如，“讲师”和“演讲”被保留为两个不同的东西）？

r text-mining tm

2013-04-17T20:15:16.773

0 投票

1 回答

599 浏览

r - 如何通过解析文档 ID 为语料库中的每个文档设置作者

我有一个像这样的 tm Corpus 对象：

语料库中每个文档的元数据如下所示：

我知道我可以一次设置一个文档的作者：

这给了我这样的结果：

如何批处理作业？

r tm

2013-04-18T17:57:17.527

0 投票

1 回答

1488 浏览

r - 从 Word 文档中提取半结构化文本

我想根据以下表格对一组文件进行文本挖掘。我可以创建一个语料库，其中每个文件都是一个文档（使用tm），但我认为创建一个语料库可能会更好，其中第二个表单表中的每个部分都是一个具有以下元数据的文档：

其中 Name、Title、TeamMembers 和 GroupLeader 是从表单的第一个表中提取的。通过这种方式，要分析的每个文本块都将保留其某些上下文。

解决这个问题的最佳方法是什么？我可以想到两种方法：

以某种方式将我拥有的语料库解析为子语料库。
以某种方式将文档解析为子文档并从中制作语料库。

任何指针将不胜感激。

这是表格：人力资源表格

这是一个带有 2 个文档的语料库的 RData 文件。exc[[1]] 来自 .doc 和 exc[[2]] 来自 docx。他们都使用了上面的表格。

r text-mining tm

2013-04-19T13:37:32.247

问题标签 [tm]

Reference