我最近使用 Adobe Acrobat Pro 的 OCR 功能来处理日语汉字词典。输出的整体质量通常比我希望的要好很多,但是文本的英文部分的单词边界经常丢失。例如,这是我文件中的一行:
softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself
我可以到处插入缺少的单词边界,但这将增加已经是一项艰巨的任务。我希望可能存在可以分析这样的文本的软件,其中一些单词一起运行,并在可能的单词边界上分割文本。有这样的包吗?
我正在使用 Emacs,所以如果所讨论的包已经是 Emacs 包或者可以很容易地集成到 Emacs 中,那将是非常甜蜜的,这样我就可以简单地将光标放在上面的一行上并重复调用一些命令以可能的正确性递减顺序在单词边界上分割行。