我正在尝试解析一些日文文本,但我似乎无法弄清楚输出编码。
这是我得到的输出:
これは ̾��,����,*,*,*,*,*
本 ̾��,����,*,*,*,*,*
です ̾��,����,*,*,*,*,*
。 ̾��,������³,*,*,*,*,*
EOS
我采取的步骤:
git clone https://github.com/taku910/mecab
cd mecab/mecab
./configure --enable-utf8-only --with-charset=utf8
make
sudo make install
mecab -o ~/Desktop/output.txt ~/Desktop/input.txt
,其中input.txt
包含“これは本です。”
使用 OSX 10.15.3