所以这是一个相当奇怪的问题,我知道。我使用一个名为 的工具pdf2htmlEX
,它将 PDF 转换为 HTML。到目前为止,结果非常令人印象深刻。在我转换为 HTML 的所有 PDF 中,我还没有看到一个错误。
使用这个 HTML,我需要用 C# 动态替换一些字符串。但是,我不能简单地说line.Replace("#SOME_STRING", "Another string")
,虽然我#SOME_STRING
在导出为 PDF 之前在文档中写了。为什么不呢,你可能会问?因为 的输出pdf2htmlEX
可能看起来像这样:
<div class="t m0 x5 h5 ya ff4 fs3 fc0 sc0 ls0 ws0">#SOME_ST<span class="_ _5"></span>RING </div>
看到那个带有_
和_5
类的空跨度标签了吗?是的,这使我无法替换我的话。该类_5
只是有一些宽度(如width: 0.9889px
)。
在这种情况下,我将如何#SOME_ST<span class="_ _5"></span>RING
用其他东西代替?
以下是一些案例:
(#SOME_STRING) #SOME_ST<span class="_ _5"></span>RING
(#SOME_OTHER_STRING) #SOME_<span class="_ _7"></span>OTHER_ST<span class="_ _5"></span>RING
我有点迷路了,因为我无法删除所有_5
元素,因为每次我更改文档中的某些内容时,该类都是随机的。
编辑:所以我基本上需要一种方法来从我自己的键值对中过滤掉 HTML 标记,这样我就可以替换#SOME_STRING -> SOMETHING_ELSE
.