1

我从网上抓取了日语内容进行内容分析。现在我正在准备文本数据,从创建术语文档矩阵开始。我用来清理和解析东西的包是“RMeCab”。有人告诉我,这个包要求文本数据采用 ANSI 编码。但是我的数据是 UTF-8 编码的,RMeCab 的设置和 R 本身的全局设置也是如此。

是否有必要更改文本文件的编码才能运行 RMeCab?那么,如何快速转换上万个单独文本文件的编码呢?

我尝试了编码转换网站,这给了我一些乱码作为 ANSI 输出。我不明白在 RMeCab 中输入看起来像一堆问号的东西背后的机制。如果我成功地将编码转换为 ANSI,并且我的文本数据看起来像一堆符号,那么 RMeCab 是否仍然能够将其读取为日文文本?

4

0 回答 0