我在 R 中使用来自 CRAN 的 TM 包。我在创建基于语料库的 DocumentTermMatrix 时遇到问题。问题是当我基于 UTF-8 语料库创建 TermDocumentMatrix 时,一些单词会变成 unicode 符号。
corpus <- Corpus(VectorSource(vector_with_texts_in_several_languages, encoding = "UTF-8"))
tdm <- TermDocumentMatrix(corpus, control=list(weighting=weightTfIdf))
print(Terms(tdm)[1:3])
回报:
[1] "<U+03BB>a<U+03B3><U+03AF>a"
[2] "<U+03C1><U+03AE>fa<U+03BD><U+03BF><U+03C2>"
[3] "<U+03C1><U+03AF>p<U+03BF><U+03C5>"
如果我手动检查语料库,那么我会看到正确的输出。
print(corpus[[1]])
回报:
квартира на кутузовском
有谁知道我怎样才能获得具有正确条款的 TermDocumentMatrix?或者有没有办法将这些 unicode 符号再次转换为“可读”输出?
注意: print(Terms(tdm)) 不包含来自 print(corpus[[1]]) 的单词