pdf2json - 如何在nodejs中解析PDF

Question

我正在尝试解析pdf并根据文本格式/装饰对信息进行分类。你建议我怎么做？例如，我有一个重复结构的pdf： S.No. BOLD+UNDERLINED TITLE para

如何根据文本修饰将此数据分类为对象数组：

[ 
  { sno: "", title: "", desc: "" }, 
  ... 
]

score 2 · Accepted Answer

我浏览了pdf2json的文档，并认为pdfData.formImage.Pages[pageNumber].Texts[wordNumber].R[0]在解析 pdf 后我可能必须使用 object 来获取我需要的值。

上述对象的属性TS是一个数组，at的值TS[2]对应于文本是bold（value = 1）还是不是（value = 0）。我找不到与underline文本装饰相关的数据的任何详细信息。

我还需要按如下方式初始化解析器 let pdfParser = new PDFParser(null, 1)：
检查此以获取更多详细信息。

1 回答 1