0

我试图获取 excel 文档的行。我所取得的成就。

1-。检索 .xls、.xlsx 文件
2-。将这些文件转换为 TIFF 图像
3-。增强图像以获得更好的文本识别
4-。识别页面
5-。创建文件
6-。识别页面和字段
7-。填充字段(这是我的问题)

例如,在像这样的表中

Name   | Age | Size
Juan   | 26  | 1.90m
Max    | 25  | 1.85m
Victor | 26  | 1.65m

我的项目可以找到关键字名称、年龄和大小,并且在设置中我可以告诉他,好的值是一行并将前导词和尾随词分组,但它只会填充字段名称、年龄和大小下面的第一个值并将忽略其他值,并且 datacap 似乎没有字段数组类型。

在此处输入图像描述

在图中可以看到添加字段的方式只有一种,而且是标量(只有一个值),添加多个只是一次添加多个字段,而不是多个值的字段哈哈。

这就是我的字段被检索的方式

在此处输入图像描述

我面临的另一个问题是我的 excel 工作表被拆分以填充文档格式,并且我希望将整个工作表转换为 1 个文档而不是 4 个文档

在此处输入图像描述

在图像中,这 4 页来自同一张纸(在 excel 中)

IBM 文档仍然缺乏信息,有些页面只有标题和零信息,哈哈。

4

1 回答 1

0

同意第 1 点,它不支持任何字段,如数组或更高级的东西。这个特性真的很需要,我们可能会看到 IBM 的一些东西。

回到第二点,datacap 将根据打印页面转换 excel,就像您打印该 excel 时一样。您必须添加规则集才能将它们合并到单个文件中。最常见的方法是使用 datacap 提供的 tiffmerge ootb。

于 2019-02-05T16:19:20.153 回答