我正在尝试提取pdf中的文本,该文本使用python加下划线但无法找到正确的解决方案,任何人都可以帮助解决这个问题,请
问问题
167 次
1 回答
0
在 PDF 中,没有划线或划线字体,因此您可以希望的最好的结果是在开始和结束时有一个标志,就像在富文本中一样。通常,图纸空间中的一行位于图像/文本字符的上方/下方。通常稍后(如突出显示)作为“注释”完成,因此您正在寻找高度窄的矩形。
PDFMiner 6 承认他们最多可以关闭这个问题。见https://github.com/pdfminer/pdfminer.six/issues/237
您可以查找 StrikeThrough 或 StrikeUnder Annotation 对象,并在https://github.com/0xabu/pdfannots上提供了显示如何完成的脚本
于 2021-07-16T15:19:16.447 回答