text-analysis - 在可能的英语单词边界上拆分字符串

Question

我最近使用 Adobe Acrobat Pro 的 OCR 功能来处理日语汉字词典。输出的整体质量通常比我希望的要好很多，但是文本的英文部分的单词边界经常丢失。例如，这是我文件中的一行：

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself

我可以到处插入缺少的单词边界，但这将增加已经是一项艰巨的任务。我希望可能存在可以分析这样的文本的软件，其中一些单词一起运行，并在可能的单词边界上分割文本。有这样的包吗？

我正在使用 Emacs，所以如果所讨论的包已经是 Emacs 包或者可以很容易地集成到 Emacs 中，那将是非常甜蜜的，这样我就可以简单地将光标放在上面的一行上并重复调用一些命令以可能的正确性递减顺序在单词边界上分割行。

score 1 · Accepted Answer

我不知道任何已经存在的东西。

最简单的方法是将字符串中包含的最长单词集与字典进行匹配。当然可能有很多单词，所以你必须计划所有的组合和排列。这样做的计算成本很高，但编写起来相当快。

score 0 · Accepted Answer

0

我也找不到任何东西，最终采用了更具交互性的方法。

于 2010-05-10T01:34:48.223 回答

2 回答 2