0

我们正在使用 Watson Discovery Service (WDS) 实施问答系统。我们要求在单个文档中提供每个答案单元。我们有复杂的 PDF 文件作为语料库。PDF 文件包含两列数据、表格和图像。取而代之的是,将整个 PDF 文件作为语料库提取到 WDS 并使用段落检索,我们使用 Watson Document Conversion Service (WDC) 将每个 PDF 文件拆分为答案单元,然后我们将那里的答案单元提取到 WDS 中。

我们在使用 Watson Document Conversion 服务进行复杂的 PDF 拆分时面临两个问题。

  1. 我们期望每个标题作为标题,相应的文本作为数据(答案)。但是,它将每章拆分为单个答案单元。有没有办法根据标题拆分两列文档?
  2. 如果输入的 PDF 文件包含表格,则文档转换服务会将 PDF 文件中可用的结构化数据读取为简单文本(缺少表格格式)。有没有办法从 PDF 读取结构化数据以回答单元?
4

1 回答 1

0

我建议您首先使用以下设置将 PDF 转换为规范化的 HTML:

   "conversion_target": "normalized_html"

并检查生成的 HTML。寻找<h1>, <h2>, ..., <h6>检测到标题 ( ) 的位置。当您切换回answer_units. 您当前看到每个章节被拆分为一个答案单元的原因是因为每个章节可能都以一个标题开头,但每个章节中都没有检测到标题。

为了生成更多答案单元,您需要按照此处所述调整 PDF 输入配置,以便从PDF 到 HTML 转换步骤生成更多标题,从而生成更多答案单元。

例如,以下配置将根据每个级别的某些字体特征检测 6 个不同级别的标题:

{
  "conversion_target": "normalized_html",
  "pdf": {
    "heading": {
      "fonts": [
        {"level": 1, "min_size": 24},
        {"level": 2, "min_size": 18, "max_size": 23, "bold": true},
        {"level": 3, "min_size": 14, "max_size": 17, "italic": false},
        {"level": 4, "min_size": 12, "max_size": 13, "name": "Times New Roman"},
        {"level": 5, "min_size": 10, "max_size": 12, "bold": true},
        {"level": 6, "min_size": 9, "max_size": 10, "bold": true}
      ]
    }
  }
}

您可以从这样的配置开始并不断调整它,直到生成的规范化 HTML 在您期望答案单元所在的位置包含标题。然后,采用调整后的配置,切换到answer_units并将它们放在一起:

{
  "conversion_target": "answer_units",
  "answer_units": {
    "selector_tags": ["h1", "h2", "h3", "h4", "h5", "h6"]
  },
  "pdf": {
    "heading": {
      "fonts": [
        {"level": 1, "min_size": 24},
        {"level": 2, "min_size": 18, "max_size": 23, "bold": true},
        {"level": 3, "min_size": 14, "max_size": 17, "italic": false},
        {"level": 4, "min_size": 12, "max_size": 13, "name": "Times New Roman"},
        {"level": 5, "min_size": 10, "max_size": 12, "bold": true},
        {"level": 6, "min_size": 9, "max_size": 10, "bold": true}
      ]
    }
  }
}

关于您关于表格的第二个问题,不幸的是,无法将表格内容转换为答案单元。如上所述,答案单元生成基于标题检测。话虽如此,如果在两个检测到的标题之间存在一个表格,则该表格将作为两个标题之间的任何其他内容的一部分作为答案单元。

于 2017-09-18T16:08:56.330 回答