1

我们需要大容量扫描和 ocr 解决方案

我们正在谈论每天将大约 4000 个文档数字化,并使用 ocr(带有隐藏文本)将它们保存为 pdf 文件...

该解决方案应该让操作员扫描文档并自动将文件保存到特定的网络资源,由将其上传到数据库的应用程序获取......

我们正在评估来自 kofax http://www.kofax.com/的企业解决方案

您还知道哪些其他产品?

有类似要求的经验吗?

任何开源(或至少可访问)解决方案?

com,activex api支持吗?

4

5 回答 5

5

有许多扫描产品供应商可以做你想做的事——扫描、索引、生成带有 OCR 覆盖的 PDF(我个人更喜欢 PDF 中的 OCR 底层)。对于专门从事扫描的供应商来说,这些要求是微不足道的。除了 Kofax 之外,仅举几个其他供应商/产品:

  • EMC/Captiva 的 InputAccel 产品
  • 数据帽
  • eCopy ShareScan
  • 真理/卡迪夫/自治

许多文档管理解决方案还具有内置扫描前端,但它们通常不如专用捕获产品功能强大。几乎所有这些解决方案都支持 COM/ActiveX API。我不知道任何用于扫描的开源解决方案,但我也从未真正搜索过任何解决方案。

大多数扫描软件供应商确实使用“批量”或“容量”许可证。通常,卷在期限结束时更新(即每年 100 万页 - 每年自动更新,无需额外费用)。因此,从某种意义上说,如果您每年购买 100 万张图像并且最终只扫描 500K 页,则您不会严格按照“每页”付费,您不会获得退款。一次性卷不会自动续订并且当它用完时,您将需要购买额外的卷,尽管这种情况不太常见。大多数供应商正在从加密狗转向控制数量,并转向软件许可。

关于 Kofax 的旁注:

Kofax 历来是通过增值经销商系统销售的,因此各种实施的质量可能差别很大。此外,它还具有高度可定制性,并具有多种风格和大量附加模块,因此一个客户的 Kofax 系统可能与其他系统有很大不同。

Kofax 用于企业级系统,每年扫描和自动捕获数以百万计的文档。它在文档扫描市场份额中占有相当大的份额。不,我不是 Kofax 的粉丝,如果我是的话,我就不会提到竞争产品了。但是,我对它非常熟悉。与市场上的其他产品一样,它也有优点和缺点。我意识到迈克尔只是在转述他所听到的内容,但我不能不发表评论就让这种笼统的概括通过。说具有很大市场份额的产品对于扫描“没有用处或用户友好”有点像说“Windows 不是有用的服务器操作系统”。笼统的概括太笼统了。

干杯,

布赖恩

于 2009-07-18T01:19:00.303 回答
0

你可以试试 ChronoScan,它通过 tesseract 有免费的 OCR,并且有 Forms Recognition Options,而且它对于非商业用途是免费的。

该软件处于高级开发阶段,您有一个论坛可以直接与开发人员交谈。

http://www.chronoscan.org 短视频阅读表格

于 2012-12-11T12:30:06.053 回答
0

PSIGEN 是 Kofax 的绝佳替代品,功能丰富且价格合理。

Kofax 替代扫描和捕获应用程序

于 2009-09-10T22:18:41.990 回答
0

Kofax 不是很有用或用户友好(根据我与县合作的同行)。它足够,但不是很好。

我们使用全 Adob​​e 解决方案。要遵循的详细信息(我不负责管理该区域,因此我必须为您收集一些信息)。

更新:我们使用

Adobe Acrobat Capture 3.0
两台带有 ADF Acrobat Standard 或 Professional 的 RICOH 彩色扫描仪 IS760D
(取决于用户)

我们拥有一个庞大的图书馆(近 6,000 个文档),其中包含数十万个可用的扫描页面。进行扫描的计算机上有一个我们购买的加密狗(250,000 次扫描,直到我们需要购买“更新”);自从处理那一天的绅士回家以来,我没有可用的成本,但我记得它是每页微美分。

我们经常扫描数百页需要当天完成的文档,完成这项任务没有问题。

如果您想了解什么是我们的一些工作(网络前端或排序,我们的库)的链接,请访问http://acequia.ccrfcd.org/FileLibrary2/FileLibrary.aspx我们已经完成了。

至于将这些 PDF 放入数据库,创建一个应用程序(可能是一个服务)来监控目录并抓取 Capture 运行后弹出的每个 PDF,将信息复制到数据库中,然后删除是很容易的或将其移至新家。

于 2009-05-21T23:37:41.433 回答
0

你希望你的 OCR 有多好?您是否需要所有内容都是人类可读的,或者您只需要一些内容才能对文档进行分类(客户编号;文档类型;条形码......)。

http://www.irislink.com是一家开发文档扫描和分类解决方案的公司。
他们的软件包含在多个品牌的多功能和消费扫描仪中。该公司更倾向于提取信息并使用它(将发票自动输入会计软件)。
我的经验是它比 Kofax(我们两者都使用)更好地处理 OCR 文本(更正单词等);尽管 Kofax 可以进一步扩展以达到更好的水平(这意味着更多的设置工作和更多的维护)。

这两种软件对于它们如何处理文档都非常有用。
如果您只想扫描文件;转换为 pdf 并保存在网络共享中;您可能已经足够购买一台好的扫描仪并使用随附的软件了。
您可能还希望查看 tesseract 项目;这是一个开源的ocr引擎,效果很好。

于 2012-03-25T13:02:10.423 回答