如何防止Mecab在超过输入缓冲区文件大小而不增加输入缓冲区大小的情况下在EOS前后输入奇怪的字符?
当使用超过输入缓冲区大小的文件运行 mecab 时,它会自动拆分输出。这通常没问题,除了 EOS 之前和之后,还有以下无法识别的字符。
� � � � 補助記号-一般
��\uFFFD (character code)
是否有任何设置阻止 mecab 输出这些奇怪的字符?我需要文件拆分以确保正确分组词素。浏览整个文件并手动删除它们并不是最好的选择,尤其是当我在 mecab 输出中有成千上万行(由于文件很多)时。
通过 Homebrew 和 Unidict 安装 mecab