我在处理使用 twitteR 包的 CRAN 版本提取的 twitter 数据时遇到了一些问题。特别是 tm 包的转换率较低。
我正在关注这个例子
这就是我目前正在做的事情:
#oauth handshake and so on work fine
google_8.10<- searchTwitter("#Google", n=1500, cainfo="cacert.pem")
google_8.10_text <- sapply(google_8.10, function(x) x$getText())
google_8.10_text_corpus <- Corpus(VectorSource(google_8.10_text))
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, tolower)
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, removePunctuation)
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, function(x)removeWords(x,stopwords()))
其他转换完成得很好(如果 tolower 没有运行)。然而,较低的转换返回:
google_8.10_text_corpus <- tm_map(google_8.10_text_corpus, tolower)
Warnmeldung:
In parallel::mclapply(x, FUN, ...) :
all scheduled cores encountered errors in user code
我怀疑这可能是由其中一条推文中的某些字符引起的,但我该如何追查问题?
编辑:确实,某些字符似乎会导致这种情况,例如:
"#Google #TheInternship THE BEST MOVIE EVER @Jeennyy01 @dylanobrien I love this part \ud83d\ude1c http://t.co/iok5vm83cP"
这里的“\ud83d\ude1c”部分会导致错误。关于如何从推文中自动删除这些短语(这个是: http: //www.charbase.com/1f61c-unicode-face-with-stuck-out-tongue-and-winking-eye )的任何想法?