我已popper pdftohtml
成功使用并生成 HTML 文件。但不知道如何解决以下几点:
在使用的命令提示符中:
pdftohtml -c -s -enc Latin2 Sample.pdf
- 实体需要
named entity format
likeŪ
而不是 UTF characterÜ
。 - 连字字符问题
selfl essness
应该是selflessness
. - 删除标点符号处的额外空格。
Pdftohtml 版本21.04.0
在Windows-10
. 如何解决以上几点?