0

我正在使用 Ephesoft 社区版 4.0.2.0 和 tif 图像(由 ephesoft 测试),ephesoft 可以从某些图像中分类或提取数据但从其他图像中他不能在文件日志中没有错误消息的问题,我现在不知道为什么。

当我单击学习文件时,HOCR 和 HTML 生成的文件是空的,没有数据,只有这样的元数据:

Application_Checklist_HOCR.xml :

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<HocrPages<HocrPage>
<Title></Title><Spans/>
<HocrContent></HocrContent>
</HocrPage></HocrPages>

但是对于 US-invoice_HOCR.xml ephesoft 可以学习,文件如下所示:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?><HocrPages><HocrPage>

<Title></Title><Spans><Span><Value>INVOICE</Value><Coordinates><x0>579</x0>

<y0>247</y0><x1>881</x1><y1>304</y1></Coordinates></Span><Span>

<Value>ACME</Value><Coordinates><x0>168</x0><y0>394</y0><x1>311</x1><y1>431</y1>

</Coordinates></Span><Span><Value>Company</Value><Coordinates><x0>329</x0>

<y0>395</y0><x1>541</x1><y1>442</y1></Coordinates></Span><Span>

<Value>lnvoice</Value><Coordinates>............
4

1 回答 1

1

您可以修改 /Path-To-Ephesoft/Application/WEB-INF/classes/META-INF/dcma-tesseract/tesseract-‌​reader.properties 中的 tesseract 配置文件并注释此行 #tesseract.command_parameters=-psm 4让 tesseract 使用默认分段。

于 2016-07-28T10:02:37.357 回答