我见过类似的问题,但还没有找到我正在处理的问题的答案。我是第一次使用,所以如果有一个简单的解决方案,请原谅我。
我正在使用 R 包“tm”,我正在尝试从以下 WebKB 数据中创建一个逐个文档的矩阵:http ://www.cs.cmu.edu/afs/cs/project/theo -20/www/数据/
数据位于几个不同的文件夹中,每个文件夹都跟踪一个主题,但我已将这些文档合并到一个文件中。在所有文档中,只有一两个文档涉及多个主题。
好的,这就是我所做的:
b <- Corpus(DirSource("/Users/checkout/Downloads/webkb/z"), readerControl=list(language="eng", reader=readPlain))
b <- tm_map(b, removeNumbers)
b <- tm_map(b, removePunctuation)
b <- tm_map(b, stripWhitespace)
b <- tm_map(b, tolower,lazy=TRUE)
b <- tm_map(b, removeWords, stopwords("english"),lazy=TRUE)
到目前为止一切顺利,没有错误。但是当我在下一行做这个时
termByDoc <- termDocumentMatrix(b)
我收到以下错误
UseMethod("meta", x) 中的错误:没有适用于 'meta' 的方法应用于“try-error”类的对象另外:警告消息:1:在 mclapply(x$content[i],function(d ) tm_reduce(d, x$lazy$maps)) : 调度核心 1 在用户代码中遇到错误,作业的所有值都会受到影响 2: 在 mclapply(unname(content(x)), termFreq, control) : 所有调度核心在用户代码中遇到错误
如果有人能告诉我出了什么问题,我将不胜感激!此外,如果有更有效的方法来创建这个逐个文档矩阵,我会接受建议!最后,我需要取出这些 html 文件中的任何链接,是否有一个 R 函数可以解决这个问题?我在文档中没有看到任何内容,因此如果您对如何执行此操作也有建议,我们将不胜感激。
谢谢你的时间!