我目前正在尝试从账单等商业文件中提取信息,例如发件人或收件人。这些文档是用ocr软件处理成xml文件的,因此它们带有格式特征的注释。在使用发件人和收件人等功能手动注释一个类似文档后,我想从新文档中提取特定信息。
所以我的问题是,是否有一种学习或匹配算法能够通过仅与一个或两个类似文档的示例进行比较来提取特定数据。如果是:是否有某种Java框架能够做到这一点?
谢天谢地
马古
我目前正在尝试从账单等商业文件中提取信息,例如发件人或收件人。这些文档是用ocr软件处理成xml文件的,因此它们带有格式特征的注释。在使用发件人和收件人等功能手动注释一个类似文档后,我想从新文档中提取特定信息。
所以我的问题是,是否有一种学习或匹配算法能够通过仅与一个或两个类似文档的示例进行比较来提取特定数据。如果是:是否有某种Java框架能够做到这一点?
谢天谢地
马古
如果 XML 结构始终相同(使用相同的模板):
只需保存信息所在选定节点的 XML 父节点,以便了解信息的路径。不应该是一个问题 - 微不足道的任务。
如果您必须搜索信息:
它可以通过创建某些特征提取规则来工作,然后使用该特征来训练支持向量机来检测信息所在的区域。
我曾经问过一个类似的问题Algorithm to match natural text in mail。
但这绝非易事,而且肯定需要不止一两个培训文件。