2

我在 R 中使用来自 CRAN 的 TM 包。我在创建基于语料库的 DocumentTermMatrix 时遇到问题。问题是当我基于 UTF-8 语料库创建 TermDocumentMatrix 时,一些单词会变成 unicode 符号。

corpus <- Corpus(VectorSource(vector_with_texts_in_several_languages, encoding = "UTF-8"))
tdm <- TermDocumentMatrix(corpus, control=list(weighting=weightTfIdf))
print(Terms(tdm)[1:3])

回报:

[1] "<U+03BB>a<U+03B3><U+03AF>a"
[2] "<U+03C1><U+03AE>fa<U+03BD><U+03BF><U+03C2>" 
[3] "<U+03C1><U+03AF>p<U+03BF><U+03C5>"

如果我手动检查语料库,那么我会看到正确的输出。

print(corpus[[1]])

回报:

квартира на кутузовском

有谁知道我怎样才能获得具有正确条款的 TermDocumentMatrix?或者有没有办法将这些 un​​icode 符号再次转换为“可读”输出?

注意: print(Terms(tdm)) 不包含来自 print(corpus[[1]]) 的单词

4

1 回答 1

0

我怀疑编码适用于第一步,您可以尝试检查语料库的第一个元素:

 corpus[[1]]
于 2013-08-28T08:30:50.037 回答