Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在为我的 PDF 数据语料库开发自定义搜索引擎。
我有一个转换层,它能够将 PDF 内容转储为文本(使用 Apache Tika 和 GROBID)。我已经完成了搜索层和返回搜索结果列表的视图。
现在,我想在原始 PDF 上为出现搜索词的行添加突出显示功能。是的,如果有必要,我想修改 PDF 文件。
有什么办法可以在 PDF 文件中突出显示文本?PDFMiner 或 PyPDF2 或其他 Python 库是否能够做到这一点?
...或者你可以推荐其他的,也许是外部服务?
您可以使用PyPDF2突出显示文本。
为了找到文本的位置,请查看这个答案。