我建议您首先使用以下设置将 PDF 转换为规范化的 HTML:
"conversion_target": "normalized_html"
并检查生成的 HTML。寻找<h1>, <h2>, ..., <h6>
检测到标题 ( ) 的位置。当您切换回answer_units
. 您当前看到每个章节被拆分为一个答案单元的原因是因为每个章节可能都以一个标题开头,但在每个章节中都没有检测到标题。
为了生成更多答案单元,您需要按照此处所述调整 PDF 输入配置,以便从PDF 到 HTML 转换步骤生成更多标题,从而生成更多答案单元。
例如,以下配置将根据每个级别的某些字体特征检测 6 个不同级别的标题:
{
"conversion_target": "normalized_html",
"pdf": {
"heading": {
"fonts": [
{"level": 1, "min_size": 24},
{"level": 2, "min_size": 18, "max_size": 23, "bold": true},
{"level": 3, "min_size": 14, "max_size": 17, "italic": false},
{"level": 4, "min_size": 12, "max_size": 13, "name": "Times New Roman"},
{"level": 5, "min_size": 10, "max_size": 12, "bold": true},
{"level": 6, "min_size": 9, "max_size": 10, "bold": true}
]
}
}
}
您可以从这样的配置开始并不断调整它,直到生成的规范化 HTML 在您期望答案单元所在的位置包含标题。然后,采用调整后的配置,切换到answer_units
并将它们放在一起:
{
"conversion_target": "answer_units",
"answer_units": {
"selector_tags": ["h1", "h2", "h3", "h4", "h5", "h6"]
},
"pdf": {
"heading": {
"fonts": [
{"level": 1, "min_size": 24},
{"level": 2, "min_size": 18, "max_size": 23, "bold": true},
{"level": 3, "min_size": 14, "max_size": 17, "italic": false},
{"level": 4, "min_size": 12, "max_size": 13, "name": "Times New Roman"},
{"level": 5, "min_size": 10, "max_size": 12, "bold": true},
{"level": 6, "min_size": 9, "max_size": 10, "bold": true}
]
}
}
}
关于您关于表格的第二个问题,不幸的是,无法将表格内容转换为答案单元。如上所述,答案单元生成基于标题检测。话虽如此,如果在两个检测到的标题之间存在一个表格,则该表格将作为两个标题之间的任何其他内容的一部分作为答案单元。