0

如何防止Mecab在超过输入缓冲区文件大小而不增加输入缓冲区大小的情况下在EOS前后输入奇怪的字符?

当使用超过输入缓冲区大小的文件运行 mecab 时,它会自动拆分输出。这通常没问题,除了 EOS 之前和之后,还有以下无法识别的字符。

�   �   �   �   補助記号-一般
 ��\uFFFD (character code)

是否有任何设置阻止 mecab 输出这些奇怪的字符?我需要文件拆分以确保正确分组词素。浏览整个文件并手动删除它们并不是最好的选择,尤其是当我在 mecab 输出中有成千上万行(由于文件很多)时。

通过 Homebrew 和 Unidict 安装 mecab

4

0 回答 0