17

我正在为我的 PDF 数据语料库开发自定义搜索引擎。

我有一个转换层,它能够将 PDF 内容转储为文本(使用 Apache Tika 和 GROBID)。我已经完成了搜索层和返回搜索结果列表的视图。

现在,我想在原始 PDF 上为出现搜索词的行添加突出显示功能。是的,如果有必要,我想修改 PDF 文件。

有什么办法可以在 PDF 文件中突出显示文本?PDFMiner 或 PyPDF2 或其他 Python 库是否能够做到这一点?

...或者你可以推荐其他的,也许是外部服务?

4

1 回答 1

9

您可以使用PyPDF2突出显示文本。

为了找到文本的位置,请查看这个答案

于 2016-11-18T15:41:41.047 回答