-1

我想从“w2 表单”(pdf)中抓取数据,以便我可以使用它保存到数据库中,但无法获取字段数据。

  1. 我尝试过“<strong>Read PDF text”,它读取整个文档并获取所有文本,但我想找到字段明智的值,例如,

    员工社保号 => 1234 56 7890

    雇主识别号 => 11-22334455

  2. 我尝试过“<strong>屏幕抓取”、“<strong>数据抓取”,但无法获得任何特定元素。

  3. 我曾尝试使用“查找图像”和“获取文本”进行“<strong>Anchorbase”活动,但无法选择特定元素。

请找到随附的 pdf 文件供您参考。

W2表格pdf

任何帮助将不胜感激。

谢谢。

4

1 回答 1

0

这是完全可读的 .pdf 文件,因此实现这一点应该不成问题。您必须阅读文档文本,然后使用正则表达式来查找您想要的内容。社会保险号或身份证号是相当结构化的数据,因此您可以轻松构建正则表达式。https://regex101.com/可以对此有所帮助。

你必须:

  1. 使用 Read PDF Text 活动来获取 .pdf 的文本,
  2. 分配活动,创建 System.Text.RegularExpressions.Match 类型的新变量
  3. 导入命名空间:System.Text.RegularExpressions
  4. 在assign use的右侧:Regex.Match(readedText, "\d{2}-\d{8}") 引号中有Employer标识号的正则表达式,
  5. 如果 UiPath 显示未声明“Regex”,则保存工作流,关闭它,再次打开,再次导入命名空间,删除分配活动并再次创建它。
  6. 就是这样,以同样的方式你可以找到第二个数字。

编辑。 例子.xaml

于 2019-06-06T20:47:55.453 回答