1

所以,我已经对一个试图解析某些字段的单词文档进行 URL 编码……这很痛苦。尽管有一些“意外”的结果,但除了这个之外,我的一切都运行良好。

以下是 Word 中 99.8% 的结果的输出示例:

%13+FORMTEXT+%01%14wes%15

通常,我设置的正则表达式完全按照我的需要抓取所有字段,例如上面的示例。但是下面的例子是一个奇怪的例子。试图从底部示例中解析出“wes”。

%13+FORMTEXT+%01%15%86%15%9A%9C%9E%A0%F2%F4%0A%1A%1C%1E+468%3A%3C%3E%40TVXZ%5C%15%60bvxz%FC %F0%E0%14%D4%C1%06%14wes%15

请注意,这是一个大字符串,所以它会以这种方式继续:

%13+FORMTEXT+%01%15%86%15%9A%9C%9E%A0%F2%F4%0A%1A%1C%1E+468%3A%3C%3E%40TVXZ%5C%15%60bvxz%FC%F0%E0%14%D4%C1%06%14wes%15%13+FORMTEXT+%01%14wess%15

请注意 %01 和 %14 之间的巨大差距,然后是 %14 和 %15 之间的文本。通常 %01%14 是并排的,在这种情况下它们之间有废话......很多,这在示例中被缩短了。

干杯,韦斯

4

1 回答 1

0

走了一条不同的路线,将文档转换为 docx/ooxml 并在 XML 上使用正则表达式。

于 2012-05-23T13:57:18.187 回答