在我发布到这里之前,我在板上做了相当多的环顾,但我没有看到任何能捕捉到我希望做的事情。
我们收到大量的入站传真(500 多页/天)作为单独的文件(大约 100 多份文件/天)。发送者(作为医院)通常会在第一次尝试几个小时后重新发送相同的文件。我想将第二次发送标记为“潜在克隆”,以便可以适当地路由和标记它。
我想知道如何在每个到达的传真(PDF/TIFF)上计算和标记某种哈希或 ID,然后快速在我们的文档数据库中进行扫描,看看它是否是唯一的。
显然,如果不希望 100% 确定,就没有办法,但我不由自主地认为,如果以下情况,一份传真将与另一份传真相同:
- 相同的页数
- 原件24小时内发送
- 哈希码相似(在阈值内)
但是我对图像比较有点困惑。我正在寻找一个阈值哈希码或某种方式来表示“每个传真的 p4 上的图像有 95% 的可能性是相同的”。例如,原始传真的 p4 可能是歪斜的,但重新发送的传真的 p4 是直的。我正在考虑首先通过 Inlite Research 的 ClearImage Repair 之类的工具运行所有传真页面,以拉直、旋转和校准所有页面。
有没有人做过这样的事情?