我正在解析的 wiki 页面中丢失了重要的空白,我认为这是因为解析器。我的 Groovy 脚本中有这个:
@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )
def slurper = new XmlSlurper(new org.ccil.cowan.tagsoup.Parser())
slurper.keepWhitespace = true
inputStream.withStream{ doc = slurper.parse(it)
println "originalContent = " + doc.'**'.find{ it.@id == 'editpageform' }.'**'.find { it.@name=='originalContent'}.@value
}
inputStream 是从一个 URL GET 请求初始化的,用于编辑一个 confluence wiki 页面。稍后在 withInputStream 块中我这样做:
println "originalContent = " + doc.'**'.find{ it.@id == 'editpageform' }.'**'.find { it.@name=='originalContent'}.@value
我注意到页面的所有原始内容都被删除了换行符。我最初认为这是服务器端的事情,但是当我在浏览器中创建相同的请求并查看源代码时,我可以在“originalContent”隐藏参数中看到换行符。有没有一种简单的方法可以禁用空白规范化并保留该字段的内容?以上是针对内部 Confluence wiki 页面运行的,但在编辑任何任意 wiki 页面时很可能会受到批评。
在上面更新后, 我添加了对“slurped.keepWhitespace = true”的调用以尝试保留空格,但这仍然不起作用。我认为这种方法适用于元素而不是属性?有没有办法轻松调整底层 Java XMLParser 上的标志?是否有为属性值中的空白设置的特定设置?