r - 在 R 中创建带有西班牙语文本的语料库

Question

尝试对西班牙语文本进行一些文本挖掘和 wordcloud 可视化。我实际上有 9 个不同的 .txt 文件，但只会发布一个以供复制。

"Nos los representationantes del pueblo de la Nación ARGENTINA, reunidos en Congreso General Constituyente por voluntad y elección de las provincias que la componen, en cumplimiento de pactos preexistentes, con el objeto de constituir la unión nacional, afianzar la justicia, consolidar la paz internal , prover la defensa común, promover el bienestar general, y asegurar los beneficios de la libertad, para nosotros, para nuestra postidad, y para todos los hombres del mundo que quieran habitar en el suelo argentino: invocando la protección de Dios, fuente de toda razón y justicia: ordenamos, decretamos y establecemos esta Constitución, para la Nación ARGENTINA。”

该文件保存为 .txt 文件。下面是我用正确编码生成术语文档矩阵的天真尝试。当我检查它时，我没有得到原始文件中的文本（例如，“constitución”变成了“constitucif3n”）。我是文本挖掘的新手，知道解决方案可能涉及各种相互依赖的调整，我想我会在这里问而不是搜索 4 小时。提前致谢。

#Generate Term-Document-Matrix

#Convert Text to Corpus and Clean
cleanCorpus <- function(corpus) {
  corpus.tmp <- tm_map(corpus, removePunctuation)
  corpus.tmp <- tm_map(corpus.tmp, stripWhitespace)
  corpus.tmp <- tm_map(corpus.tmp, tolower)
  corpus.tmp <- tm_map(corpus.tmp, removeWords, stopwords("spanish"))
  return(corpus.tmp)
}

generateTDM <- function(path) {
  cor.tmp <- Corpus(DirSource(directory=path, encoding="ISO8859-1"))
  cor.cl <- cleanCorpus(cor.tmp)
  tdm.tmp <- TermDocumentMatrix(cor.cl)
  tdm.s <- removeSparseTerms(tdm.tmp, 0.7)
}

tdm <- generateTDM(pathname)
tdm.m <- as.matrix(tdm)

score 1 · Accepted Answer

答：确保原始文本文件是 UTF-8 编码的。为此，我必须在 Mac 上的 TextEdit 中更改我的保存首选项。这使一切都无缝地工作。

r - 在 R 中创建带有西班牙语文本的语料库

1 回答 1

Related

Reference