pdf - Tika - 如何从 PDF 文本中提取文本：下划线、突出显示、划掉

Question

我正在使用 Tika* 来解析 PDF 文件。检索文档的文本没有问题，但我不知道如何提取文本：

下划线
突出显示
划掉

Adobe Writer 为您提供不同的文本编辑选项，但我无法看到它们“隐藏”在哪里。

有没有办法提取这些元数据信息？（下划线，高亮...）

你知道 Tika 是否能够提取这些数据吗？

*http://tika.apache.org/

score 2 · Accepted Answer

哇。等待答案的时间是 4 年，我想您现在已经找到了解决方案。无论如何，为了那些访问此链接的人，答案是肯定的。Apache Tika 不仅可以提取文档中的文本，还可以提取格式（例如粗体、斜体）。这是我的场景：

    //inputStream is the document you wish to parse from.

    AutoDetectParser parser = new AutoDetectParser();
    ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());
    Metadata metadata = new Metadata();

    parser.parse(inputStream,handler,metadata);
    System.out.println(handler.toString());

print 语句打印文档的 XML。通过清理 XML（真正的 HTML 标记）的一些工作，您将留下诸如 < b >text</b> 用于粗体文本和 < i >text</i > 用于斜体文本的标记。然后你可以找到一种方法来渲染它。祝你好运。

pdf - Tika - 如何从 PDF 文本中提取文本：下划线、突出显示、划掉

1 回答 1

Related

Reference