我尝试从https://cran.r-project.org/web/packages/text2vec/vignettes/files-multicore.html执行示例,但使用我的文件“文本” - 3.7Gb 纯文本,从维基百科 XML 转储构建来自这里的 Perl 脚本 - http://mattmahoney.net/dc/textdata.html
setwd("c:/rtest")
library(text2vec)
library(doParallel)
N_WORKERS = 2
registerDoParallel(N_WORKERS)
it_files_par = ifiles_parallel(file_paths = "text")
it_token_par = itoken_parallel(it_files_par, preprocessor = tolower, tokenizer = word_tokenizer)
vocab = create_vocabulary(it_token_par)
这会导致错误:
Error in unserialize(socklist[[n]]) : error reading from connection
我有 8Gb RAM,从这个文件创建 word2vec 模型没有任何错误。