当一个批次被创建时,文档应该被自动分离,而不使用分隔页或条形码分隔符。
如何对发票和支持文件的文件进行分类。在我们的项目中,我们收到许多带有支持文档的发票,因此扫描人员必须手动插入分隔页,因此为了避免这种情况,我们希望自动对支持文档进行分类。
一般来说,这个概念是您将在项目中启用分离,然后使用示例训练您的类以用于布局或内容分类器。
但是,我相信您已经看到,发票的障碍在于它们在供应商之间的差异足够大,以至于无法可靠地将所有内容归类为 Invoice 类。与“支持文档”类似,它们可能彼此之间可能有很大不同,因此不幸的是,如果没有分隔页(或贴在支持文档上的条形码贴纸),就没有一个完全简单的答案。
您可能想要做的是在 Document_AfterSeparate 事件等分离事件之一中编写代码。尽管有名称,但此时文档尚未拆分,但分类器已运行。有关详细信息,请参阅脚本帮助主题“服务器脚本事件序列 > 文档分隔 > 标准文档分隔”。在 CDocPage (pXDoc.CDoc.Pages.ItemByIndex(lPage).SplitPage) 上设置 SplitPage 属性将允许您使用自己的逻辑来确定要分隔哪些页面。
例如,如果您知道您将始终拥有单页发票,则可以在第一页上拆分并相应地进行分类。或者,您可以尝试搜索指示发票结尾的内容,例如“总计”或其他特征。脚本帮助主题“脚本示例 > 使用定位器结果进行标准文档分离”中有一个示例说明如何使用定位器来帮助分离。该示例使用条形码定位器,但如果您想尝试使用格式定位器或其他任何东西,同样的概念也适用。
如果没有分隔页,您将需要像 Kofax Transformation Module (KTM) 这样的智能分类软件。它有点贵。您将需要验证成本节约和投资回报率。