1

OCR 是否有行业标准输出格式?我似乎找不到任何被定义为行业标准的东西,我对 OCR 也不是很有经验,所以我也不知道是否有标准。

4

3 回答 3

2

hOCR是一个开放标准,它定义了用于表示 OCR 输出的数据格式。

于 2013-06-04T15:02:02.837 回答
1

没有这样一种格式,但有一些常用的做法和开放标准格式可以满足您的要求。这个问题就像在问“煮土豆的标准结果是什么”。土豆泥,炸薯条,或烤(不知道那个例子来自哪里,我一定是饿了......)

此外,“行业标准”将取决于特定行业。如果您处于特定的垂直领域,那么某些格式将比其他格式更常见(几乎是标准)。例如:

  • 医疗 - HL7 格式的文本
  • 图书馆 - ALTO PDF
  • 法律/电子发现 - 图像下的 PDF 文本
  • 集成/自动化 - XML

一般来说,如果我回答您的问题,即最常用和行业接受的格式是:TXT、XML、PDF(几种风格),我不会错。每个都有独特的属性和特定用途,但由于开放标准,每个都可以被其他技术广泛使用。

从另一端接近它会更好,这意味着通过“业务需求”思考数据会发生什么以及需要在哪里吸收数据,应该准确定义您希望从 OCR 输出中使用哪种移交格式。

于 2013-06-05T00:38:33.033 回答
0

XIEO ( http://xieo.info ) 使用称为 CML (Clix Markup Language) 的 (Maya Software) 专有格式对页面、区域、行、文本框和相关信息进行有效编码。VisualText/NLP++(可在http://www.textanalysis.com获得)有一个特殊的标记器传递来“吸入”该格式并生成现成的解析树。然后,NLP++ 分析器可以在该初始解析树上构建。

该工作流程已在 XIEO 使用超过 5 年,主要用于处理官方记录文件(契约、抵押、法院书记员等)并从中提取信息。

在此工作流程中,可以清理 OCRed 文本,重新分区以修复 OCR 错误和错误分区,并从文本中提取相关信息。

Amnon Meyers,文本分析国际公司首席技术官 amnon.meyers@textanalysis.com

于 2014-10-07T03:58:33.427 回答