r - 使用 R 进行文本挖掘

Question

我见过类似的问题，但还没有找到我正在处理的问题的答案。我是第一次使用，所以如果有一个简单的解决方案，请原谅我。

我正在使用 R 包“tm”，我正在尝试从以下 WebKB 数据中创建一个逐个文档的矩阵：http ://www.cs.cmu.edu/afs/cs/project/theo -20/www/数据/

数据位于几个不同的文件夹中，每个文件夹都跟踪一个主题，但我已将这些文档合并到一个文件中。在所有文档中，只有一两个文档涉及多个主题。

好的，这就是我所做的：

b <- Corpus(DirSource("/Users/checkout/Downloads/webkb/z"), readerControl=list(language="eng", reader=readPlain))
b <- tm_map(b, removeNumbers)
b <- tm_map(b, removePunctuation)
b <- tm_map(b, stripWhitespace)
b <- tm_map(b, tolower,lazy=TRUE)
b <- tm_map(b, removeWords, stopwords("english"),lazy=TRUE)

到目前为止一切顺利，没有错误。但是当我在下一行做这个时

termByDoc <- termDocumentMatrix(b)

我收到以下错误

UseMethod("meta", x) 中的错误：没有适用于 'meta' 的方法应用于“try-error”类的对象另外：警告消息：1：在 mclapply(x$content[i],function(d ) tm_reduce(d, x$lazy$maps)) : 调度核心 1 在用户代码中遇到错误，作业的所有值都会受到影响 2: 在 mclapply(unname(content(x)), termFreq, control) : 所有调度核心在用户代码中遇到错误

如果有人能告诉我出了什么问题，我将不胜感激！此外，如果有更有效的方法来创建这个逐个文档矩阵，我会接受建议！最后，我需要取出这些 html 文件中的任何链接，是否有一个 R 函数可以解决这个问题？我在文档中没有看到任何内容，因此如果您对如何执行此操作也有建议，我们将不胜感激。

谢谢你的时间！

r - 使用 R 进行文本挖掘

0 回答 0

Related

Reference