1

我正在尝试使用split()方法来拆分包含重复标签的长字符串(包含 CFML 代码的文本文档的内容),每个标签都以这两个字符结尾:">和换行符。

我无法弄清楚如何做到这一点,尝试多个正则表达式没有运气,在提到的标签内可以嵌套其他标签(请不要问为什么:-)),并且这些嵌套标签上的拆分中断,即使它们不包含">

例子:

<cfset code = "Text text text <table style='width:538px; [... more text stripped ...] </table>">
<cfset another_code = "Text text text">
...

任何线索将不胜感激!

4

2 回答 2

1

要使用纯正则表达式,我会使用str.split(Pattern.quote("\">")).

但是,您应该考虑使用 XML 解析器,例如 SAX、StAX、DOM 解析器等。无需重新发明轮子。

于 2013-04-18T16:47:39.813 回答
1

我不确定您要做什么,但是如果您想拆分,">(new line)则可以使用split("\">\r?\n"). 但也许你想在">以前的新线标记上分割?在这种情况下,您可以使用后视机制,例如split("(?<=\">)\r?\n")

于 2013-04-18T17:10:53.127 回答