Office.PARAGRAPH_COUNT
如果我有以下代码可以从 PDF中读取段落数 ( ):
TikaInputStream pdfStream = TikaInputStream.get(new File("some-doc.pdf"));
ContentHandler handler = new DefaultContentHandler();
Metadata pdfMeta = new Metadata();
ParseContext pc = new ParseContext();
Parser parser = TikaConfig.getDefaultConfig().getParser();
parser.parse(pdfStream, handler, pdfMeta, pc);
int pdfParagraphCount = pdfMeta.getInt(Office.PARAGRAPH_COUNT);
Tika 是否获得pdfParagraphCount
:
- 只需查询 PDF 的元数据以获取计数?或通过
- 在解析器读取整个 PDF 时应用一些“段落计数”算法?
如果是前者,保存计数的元数据字段是否可写?意思是,会不会是错的?任何带有 iText 或 PDFbox 的小丑都可以操纵该字段并使其不正确吗?
有什么方法可以让 Tika 在阅读 PDF 文件时计算段落(正确地,通过应用某种算法或策略)?
本质上,我需要 PDF 中的段落数,并且我需要它非常准确,没有机会或损坏/不正确的可写元数据字段(因为我自己不生成原始 PDF)。提前致谢。