r - RMeCab 日文文本编码（R 用户）

问问题 2014-10-25T09:36:47.000

537 次

我从网上抓取了日语内容进行内容分析。现在我正在准备文本数据，从创建术语文档矩阵开始。我用来清理和解析东西的包是“RMeCab”。有人告诉我，这个包要求文本数据采用 ANSI 编码。但是我的数据是 UTF-8 编码的，RMeCab 的设置和 R 本身的全局设置也是如此。

是否有必要更改文本文件的编码才能运行 RMeCab？那么，如何快速转换上万个单独文本文件的编码呢？

我尝试了编码转换网站，这给了我一些乱码作为 ANSI 输出。我不明白在 RMeCab 中输入看起来像一堆问号的东西背后的机制。如果我成功地将编码转换为 ANSI，并且我的文本数据看起来像一堆符号，那么 RMeCab 是否仍然能够将其读取为日文文本？

0 回答 0