1

我有一个 PDF,其中包含许多文本中的下划线和删除线。我希望能够将此 PDF 转换为 HTML。我尝试了许多不同的工具,它们有时会将下划线和删除线作为文本格式捕获,而在其他时候会将下划线和删除线转换为图形,这(据我所知)对我来说毫无用处。

我真的很想知道这些程序如何区分格式化文本的下划线和转换为图形的下划线,以及我如何能够访问文档并将所有内容捕获为文本格式。

我可能对此采取了错误的方法,并且对任何可能的解决方案持开放态度,我认为我只需要指出正确的方向即可。

提前感谢您的任何帮助。

4

1 回答 1

2

There are no underlines and strikethroughs in PDF, there are just lines being drawn on top of text. PDF tools that detect underlines and strikethroughs will usually look for a line drawing that is close enough to the text, or some other similar heuristics, then add the corresponding style to the text output when converting into another format. However this kind of approach will never work for 100% of the cases.

于 2013-03-22T18:51:32.913 回答