我正在尝试解析pdf并根据文本格式/装饰对信息进行分类。你建议我怎么做?例如,我有一个重复结构的pdf:
S.No. BOLD+UNDERLINED TITLE para
如何根据文本修饰将此数据分类为对象数组:
[
{ sno: "", title: "", desc: "" },
...
]
我正在尝试解析pdf并根据文本格式/装饰对信息进行分类。你建议我怎么做?例如,我有一个重复结构的pdf:
S.No. BOLD+UNDERLINED TITLE para
如何根据文本修饰将此数据分类为对象数组:
[
{ sno: "", title: "", desc: "" },
...
]
我浏览了pdf2json的文档,并认为pdfData.formImage.Pages[pageNumber].Texts[wordNumber].R[0]
在解析 pdf 后我可能必须使用 object 来获取我需要的值。
上述对象的属性TS
是一个数组,at的值TS[2]
对应于文本是bold
(value = 1)还是不是(value = 0)。我找不到与underline
文本装饰相关的数据的任何详细信息。
我还需要按如下方式初始化解析器
let pdfParser = new PDFParser(null, 1)
:
检查此以获取更多详细信息。