问题标签 [document-imaging]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
954 浏览

sql-server - 文档/图像数据库存储库设计问题

问题:

我应该编写我的应用程序以直接访问数据库图像存储库还是编写一个中间件来处理文档请求。

背景:

我有一个自定义文档图像和工作流应用程序,目前存储大约 1500 万个文档/文档图像(90%+ 单页,4 组 tiff,其余 PDF、Word 和 Excel 文档)。图像存储库是一个商业的第 3 方应用程序,它非常昂贵并且坦率地说开销太大。我只需要一个系统来存储和检索文档图像。

我正在考虑将映像直接移动到 SQL Server 2005 数据库中。索引信息非常有限 - 基本上是 2 个索引字段。这是一个人寿保险单管理系统,因此我使用保单编号和系统范围的唯一 ID 编号对图像进行索引。还有其他索引值,但它们与图像数据分开存储和维护。这些索引值使我能够查找单个图像检索的唯一 id 值。

数据库服务器是一个双四核 windows 2003 机器,带有托管数据库文件的 SAN 驱动器。当前的图像存储库大小约为 650GB。我还没有进行任何测试来查看转换后的数据库会有多大。我并不是真的在询问数据库设计——我正在与我们的 DBA 在这方面进行合作。如果情况发生变化,我会回来的:-)

当前要替换的系统显然是一个中间件应用程序,但它是一个非常重量级的系统,分布在 3 个 windows 服务器上。如果我走这条路,那将是一个单一的服务器系统。

我主要关心的是可扩展性和性能 - 非常重视性能。我有大约 100 个用户,未来几年的使用增长可能会很慢。大多数用户主要是阅读用户——他们不经常向系统添加图像。我们有一个部门负责扫描和以其他方式将图像添加到存储库。我们还有一些其他应用程序接收文档(通过 ftp),它们会在收到文档时自动将它们插入到存储库中,或者将完整的索引信息或作为用户查看和索引的“批次”。

大多数(90%+)的文档/图像非常小,< 100K,可能< 50K,所以我相信将图像存储在数据库文件中将是最有效的,而不是获取 SQL 2008 并使用文件流。

0 投票
7 回答
29529 浏览

asp.net - 在 ASP.net 中将 Microsoft Document Imaging (.mdi) 文件转换为 PDF(或 JPG)

你知道我如何在服务器中处理这种格式吗?
我想让用户上传文件,然后将其下载为 PDF 或 JPG

编辑:
到目前为止,我发现的唯一“组件”是MDI2PDF,它只有一个命令行工具,而不是一个真正的 DLL 来调用。

0 投票
2 回答
27100 浏览

twain - 模拟 TWAIN 设备

我们公司使用的一些软件只接受来自“成像设备”的输入,即 TWAIN 设备(例如扫描仪)。

问题是我们以数字方式接收文件,因此使用实际的扫描仪需要我们打印、扫描和切碎我们已经在计算机上但不在软件中的文档。

我很好奇是否有人知道我们如何能够同时解决这个问题。我的第一个想法是想办法让程序误以为我们正在使用扫描仪,通过一些新的“成像设备”,它只会读取文件,然后将其吐出给软件,但我什至没有知道从哪里开始。

我们提出了一个功能请求,认为这个问题显然应该在软件本身中解决,但该公司因在更新方面非常滞后而臭名昭著。

0 投票
1 回答
203 浏览

document-imaging - Scantron Cognition Enterprise 的资源?

我在工作中使用 Scantron Cognition Enterprise 从扫描的表格中捕获数据。构建这些表单充其量是乏味的,尤其是当有一个预构建对象库可供使用时。不幸的是,文档和在线资源稀缺。

有没有人有任何指针可以找到这个工具的一些资源?

0 投票
3 回答
438 浏览

php - 在网页和 VB 应用程序之间传递数据

我正在开发一个供我们公司内部使用的应用程序。此应用程序的目的是用于文档成像。我们想要做的是打印条形码标签以附加到文档上,以便在使用 vfiler 等软件扫描它们时能够读取条形码并知道如何归档它们。

主要关注点是我们基于网络(PHP)的 ERP 系统。我们希望修改代码以允许用户在输入订单或采购订单后立即打印条形码标签。我可以访问 ERP 网页的源代码。我不知道有任何方法可以在不显示打印机选择对话框的情况下将网页打印到打印机。因此,我决定尝试创建一个可以打印条形码的 VB 应用程序。这将允许我绕过打印机选择对话框。

现在来回答这个问题。有没有办法让服务器上运行的网页(PHP)调用VB应用程序来执行任务?因此,如果我在网页上有一个按钮并且用户单击它,该按钮会以某种方式将相关信息(订单号)发送到 VB 应用程序,而 VB 应用程序将打印条形码。VB 应用程序将始终在机器上运行。标签打印机将是每个人机器上的 Zebra USB 标签打印机。

任何想法表示赞赏。

谢谢,基思

0 投票
1 回答
172 浏览

python - 如何在python中编码解析规则?

给定许多类的 XML 对象(例如,文档图像的类型),我需要根据对象的类和一组与 XML 文件内容相关的复杂数学规则生成一些输出。

这个任务的通用名称是什么(解析?)以及为每个类编码单独规则的最简单方法是什么,记住这些规则可能涉及数学关系。我想我应该为每个类创建一个文件,以便使用 DSL 对其进行管理,但我不确定。有人建议合并一个成熟的 Lua 或 Javascript 解释器。这是一个好主意吗?我想保持精简,简单。

0 投票
2 回答
678 浏览

algorithm - 表单域的 HSV 颜色去除/丢失

我正在编写一个系统来从表单图像中删除某些字段边界。字段中可能有文字,即使笔迹跨越字段边界,我也需要正确保留。

我有 2 个图像:1 个彩色图像(转换为 HSV 颜色空间)和 1 个按像素排列的黑白图像(这些由扫描仪生成)

鉴于彩色图像中的颜色,我想从黑白图像中删除(采摘)字段边界像素。

我有一个优势,因为我先验地知道场地的确切位置,以及场地边界线的宽度/高度。

我当前的实现包括(对于每个字段),扫描彩色图像上的字段边界并计算该字段边界的平均 HSV 值(因为我确切知道字段边界在哪里,所以我只访问“字段边界”像素,但是如果它们越过字段边界,我也可能会访问一些手写像素,这个想法是它们不会使平均值产生很大的偏差)。一旦我有了字段边界的“平均” HSV 值,我再次扫描字段边界,并为每个像素计算以下 delta 函数:

在此处输入图像描述

如果“当前”像素和平均 HSV 之间的 Delta 值小于 0.07(根据经验发现),那么我将像素设置为白色(颜色接近),否则我将像素保持为黑色。

以下是字段的一些示例:

彩色图像: 在此处输入图像描述 黑白图像 非漏失: 在此处输入图像描述 漏掉了未在方程式中使用饱和度的黑白图像: 在此处输入图像描述 实际漏掉了完全使用公式的黑白图像(使用所有 3 个分量 H、S 和 V) 在此处输入图像描述

我用来获取第三张图像的公式是上面的公式,但是我将饱和度排除在等式之外(我只是在玩弄东西)。
这显然对颜色变化不够敏感,但公式对饱和度变化非常敏感(这主要是由图像中存在的 JPEG 压缩伪影引起的(示例伪影):

在此处输入图像描述

我认为第 4 个示例是最好的,因为它对颜色变化非常敏感,因此您不太可能删除笔迹,但问题是由于简单的扫描或压缩伪影引起的轻微颜色差异,您更容易拾取边框.

您有什么想法可以减轻在场边界内发生的一些颜色(饱和度)变化,是使用直方图吗?那里涉及一些量化以减少垃圾箱的数量?

我想听听人们有什么想法。

谢谢你。

0 投票
1 回答
756 浏览

ios - Camera中图像的角点检测

我对 iOS 编程非常陌生,目前正在尝试 iOS 新的编程语言 - Swift,以查看可用的库等等。目前,我正在尝试在 xcode 6 中创建一个为文档拍照的新项目。但我想要的是做角点检测。然后用户可以使角落越来越小(取决于用户),然后他/她可以裁剪该图像。例如,办公镜头应用程序。

我做了很少的研究,但有几个开发人员建议使用 GPUImage。它与iOS8兼容吗?任何其他可用的工具或更简单的配置可以帮助我获得我需要的东西?

是否有任何其他库可以与 xcode6.1 或更高版本的 iOS8 一起使用?我对那里的任何第 3 方库或示例知之甚少,这些库或示例可以为我指明正确的方向,关于如何进行角点检测?

任何提示/建议都会很棒,所以我可以通过这篇文章学习并变得更好。谢谢!

0 投票
2 回答
354 浏览

c# - 使用 Kofax VRS 支持开发应用程序的正确方法

有时在处理 Kofax 时我很困惑…… 回到过去(多年前),我会开发一个应用程序,用于使用 Kofax ImageControls Toolkit 扫描、查看和打印文档。

上次我使用该工具包开发应用程序是不久前,但它是在 c# 中。我记得当时我在工具包上找不到任何更新,最后不得不使用我能拿到的最新Kofax ImageControls Toolkit v3版本,这样我就可以使用 Kofax 的 VRS v4 软件。

多年后快进,我再次尝试创建另一个应用程序,该应用程序将利用 Kofax (v5) 的最新 VRS 软件。问题是我现在在使用带有 Net framework 4.5.2 的 c# 的 Windows 10 环境中。我试图了解 Kofax 建议人们使用什么来开发应用程序以利用 VRS 5 软件。我们还应该使用 1998 年开发的工具包(v3.1)吗???我已经看到似乎在 2003 年左右出现的 v3.75 的痕迹,但我无法掌握它。

谁能指出我如何开发使用 VRS 软件进行图像处理的应用程序的正确方向?