r - 创建 DocumentTermMatrix 时的 Unicode 符号

Question

我在 R 中使用来自 CRAN 的 TM 包。我在创建基于语料库的 DocumentTermMatrix 时遇到问题。问题是当我基于 UTF-8 语料库创建 TermDocumentMatrix 时，一些单词会变成 unicode 符号。

corpus <- Corpus(VectorSource(vector_with_texts_in_several_languages, encoding = "UTF-8"))
tdm <- TermDocumentMatrix(corpus, control=list(weighting=weightTfIdf))
print(Terms(tdm)[1:3])

回报：

[1] "<U+03BB>a<U+03B3><U+03AF>a"
[2] "<U+03C1><U+03AE>fa<U+03BD><U+03BF><U+03C2>" 
[3] "<U+03C1><U+03AF>p<U+03BF><U+03C5>"

如果我手动检查语料库，那么我会看到正确的输出。

print(corpus[[1]])

回报：

квартира на кутузовском

有谁知道我怎样才能获得具有正确条款的 TermDocumentMatrix？或者有没有办法将这些 unicode 符号再次转换为“可读”输出？

注意： print(Terms(tdm)) 不包含来自 print(corpus[[1]]) 的单词

score 0 · Accepted Answer

我怀疑编码适用于第一步，您可以尝试检查语料库的第一个元素：

 corpus[[1]]

r - 创建 DocumentTermMatrix 时的 Unicode 符号

1 回答 1

Related

Reference