java - XMLParser 正在吃掉我的空白

Question

我正在解析的 wiki 页面中丢失了重要的空白，我认为这是因为解析器。我的 Groovy 脚本中有这个：

@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )
def slurper = new XmlSlurper(new org.ccil.cowan.tagsoup.Parser())
slurper.keepWhitespace = true
inputStream.withStream{ doc = slurper.parse(it) 
println "originalContent = " + doc.'**'.find{ it.@id == 'editpageform' }.'**'.find { it.@name=='originalContent'}.@value
}

inputStream 是从一个 URL GET 请求初始化的，用于编辑一个 confluence wiki 页面。稍后在 withInputStream 块中我这样做：

println "originalContent = " + doc.'**'.find{ it.@id == 'editpageform' }.'**'.find { it.@name=='originalContent'}.@value

我注意到页面的所有原始内容都被删除了换行符。我最初认为这是服务器端的事情，但是当我在浏览器中创建相同的请求并查看源代码时，我可以在“originalContent”隐藏参数中看到换行符。有没有一种简单的方法可以禁用空白规范化并保留该字段的内容？以上是针对内部 Confluence wiki 页面运行的，但在编辑任何任意 wiki 页面时很可能会受到批评。

在上面更新后，我添加了对“slurped.keepWhitespace = true”的调用以尝试保留空格，但这仍然不起作用。我认为这种方法适用于元素而不是属性？有没有办法轻松调整底层 Java XMLParser 上的标志？是否有为属性值中的空白设置的特定设置？

score 1 · Accepted Answer

我首先尝试用我自己的一些融合页面来重现这个，但是输入节点中没有 value 属性和文本内容，所以我创建了自己的测试 html。

现在，我认为 tagoup 解析器也需要配置为保留空格，只是在 slurper 上设置它不会有帮助，因为默认设置是忽略空格。

所以我已经做到了这一点，tagsoup 功能可忽略空白已记录在案。（在页面上搜索空格）

无论如何，它不起作用。从示例中可以看出，属性中的空格被保留，尽管设置了额外的功能，但保留文本空格似乎不起作用。也许这是 tagoup 或 xml slurper 中的错误？

我建议您也仔细查看一下您的 html，是否真的存在 value 属性？

@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )

String html = """\
<html><head><title>test</title></head><body>
<p>
    <form id="editpageform">
        <p>
            <input name="originalContent" value="         ">         

            </input>
        </p>
    </form>
</p>
</body></html>
"""
def inputStream = new ByteArrayInputStream(html.getBytes())

def parser = new org.ccil.cowan.tagsoup.Parser()
parser.setFeature("http://www.ccil.org/~cowan/tagsoup/features/ignorable-whitespace", true)

def slurper = new XmlSlurper(parser)
slurper.keepWhitespace = true

inputStream.withStream{ doc = slurper.parse(it) 
    def parse = { doc.'**'.find{ it.@id == 'editpageform' }.'**'.find { it.@name=='originalContent'} }
    println "originalContent (name)  = '${parse().@name}'"
    println "originalContent (value) = '${parse().@value}'"
    println "originalContent (text)  = '${parse().text()}'"
}

score 0 · Accepted Answer

似乎换行符没有保留在 value 属性中。见下文：

@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )

String html = """\
<html><head><title>test</title></head><body>
<p>
    <form id="editpageform">
        <p>
            <input name="originalContent" value=" 



                    ">         

            </input>
        </p>
    </form>
</p>
</body></html>
"""
def inputStream = new ByteArrayInputStream(html.getBytes())

def parser = new org.ccil.cowan.tagsoup.Parser()
parser.setFeature("http://www.ccil.org/~cowan/tagsoup/features/ignorable-whitespace", true)

def slurper = new XmlSlurper(parser)
slurper.keepWhitespace = true

inputStream.withStream{ doc = slurper.parse(it) 
    def parse = { doc.'**'.find{ it.@id == 'editpageform' }.'**'.find { it.@name=='originalContent'} }
    println "originalContent (name)  = '${parse().@name}'"
    println "originalContent (value) = '${parse().@value}'"
    println "originalContent (text)  = '${parse().text()}'"
    assert parse().@value.toString().contains('\n') : "Should contain a newline"
}

java - XMLParser 正在吃掉我的空白

2 回答 2

Related

Reference