java - java使用StAX以通用方式获取子元素

Question

我正在尝试使用 StAX（我已经不喜欢它了....）
似乎使用它的唯一方法是通过连续的 if-else 条件。
但最重要的是，除非事先知道要解析的 xml 文档的结构，否则似乎无法将元素与其子元素关联起来。这是否正确？
我尝试了以下方法：我在字符串中有这个 xml

<ns1:Root xmlns:ns1=\"http://rootNameSpace.com/\">
<ns1:A/>
<ns1:B>
        <Book xmlns=\"http://www.myNameSpace.com\" xmlns:xsd=\"http://www.w3.org/2001/XMLSchema\" xmlns:xsi=\"http://www.w3.org/2001/XMLSchema-instance\">
            <Data>
                <Author>John</Author>
                <Edition>1</Edition>
                <PubHouse>Small Publishing House</PubHouse>
                <Price>37.8</Price>
            </Data>
        </Book>
</ns1:B>
</ns1:Root>

我想使用 StAX 来获取 Book 元素，但似乎我只能编写对所有结构进行硬编码的代码。
即使用XMLEventReader，一旦你得到书，开始循环数据，作者等。
有没有一个通用的解决方案？
我尝试了以下方法来解决这个问题：我尝试从 String 到 XMLEventReader 并返回到 String，但我无法获得我最初使用的确切 String 表示形式（命名空间在括号中，额外的冒号等）。

StringBuilder xml = new StringBuilder();
XMLInputFactory inputFactory = XMLInputFactory.newInstance();
String msg = "<ns1:Root xmlns:ns1=\"http://rootNameSpace.com/\"><ns1:A/><ns1:B><Book xmlns=\"http://www.myNameSpace.com\" xmlns:xsd=\"http://www.w3.org/2001/XMLSchema\" xmlns:xsi=\"http://www.w3.org/2001/XMLSchema-instance\"><Data><Author>John</Author><Edition>1</Edition><PubHouse>Small Publishing House</PubHouse><Price>37.8</Price></Data></Book></ns1:B></ns1:Root>";
InputStream input = new ByteArrayInputStream(msg.getBytes("UTF-8"));
XMLEventReader xmlEventReader = inputFactory.createXMLEventReader(input);
while (xmlEventReader.hasNext())
{

    XMLEvent event = xmlEventReader.nextEvent();
    StringWriter sw = new StringWriter();
    event.writeAsEncodedUnicode(sw);
   xml.append(sw);

}
System.out.println(xml);

我得到以下信息：

<?xml version="1.0" encoding='UTF-8' standalone='no'?><['http://rootNameSpace.com/']:ns1:Root xmlns:ns1='http://rootNameSpace.com/'><['http://rootNameSpace.com/']:ns1:A></ns1:A><['http://rootNameSpace.com/']:ns1:B><['http://www.myNameSpace.com']::Book xmlns:='http://www.myNameSpace.com' xmlns:xsd='http://www.w3.org/2001/XMLSchema' xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance'><['http://www.myNameSpace.com']::Data><['http://www.myNameSpace.com']::Author>John</Author><['http://www.myNameSpace.com']::Edition>1</Edition><['http://www.myNameSpace.com']::PubHouse>Small Publishing House</PubHouse><['http://www.myNameSpace.com']::Price>37.8</Price></Data></Book></ns1:B></ns1:Root>

这种情况可以通过 StAX 解决吗？或者 DOM 是唯一的解决方案？

score 5 · Accepted Answer

我真的不明白你想要做什么，但如果你想要导致START_ELEMENT事件的标签的本地名称，你可以这样做：

if (event.getEventType() == START_ELEMENT) {
    QName qname = event.asStartElement().getName()
    System.out.println("Start of element " + qname.getLocalPart());
}

同样，asEndElement,asCharacters等提供对其他类型节点的访问。

就个人而言，我通常发现XMLStreamReader在大多数情况下对我来说更方便，但我认为这取决于用例以及您自己的个人喜好。一个专业提示是，模式越严格，使用 StAX 解析数据就越容易。

您可能还想查看用于自动 XML 数据绑定的JAX-B 。

编辑：这是 OP 中 XML 的简单递归下降 StAX 解析器：

@Test
public void recursiveDescentStaxParser( ) throws XMLStreamException,
        FactoryConfigurationError
{
    String msg = "<ns1:Root xmlns:ns1=\"http://rootNameSpace.com/\"><ns1:A/><ns1:B><Book xmlns=\"http://www.myNameSpace.com\" xmlns:xsd=\"http://www.w3.org/2001/XMLSchema\" xmlns:xsi=\"http://www.w3.org/2001/XMLSchema-instance\"><Data><Author>John</Author><Edition>1</Edition><PubHouse>Small Publishing House</PubHouse><Price>37.8</Price></Data></Book></ns1:B></ns1:Root>";
    XMLStreamReader reader = XMLInputFactory.newFactory( )
            .createXMLStreamReader( new StringReader( msg ) );

    reader.nextTag( );
    readRoot( reader );

}

private void readRoot( XMLStreamReader reader ) throws XMLStreamException
{
    while ( reader.nextTag( ) == XMLEvent.START_ELEMENT )
    {
        QName name = reader.getName( );
        if ( "B".equals( name.getLocalPart( ) ) )
            readBooks( reader );
        else
            reader.nextTag( ); // Empty <A>

    }
}

private void readBooks( XMLStreamReader reader ) throws XMLStreamException
{
    while ( reader.nextTag( ) == XMLEvent.START_ELEMENT )
    {
        QName name = reader.getName( );
        if ( !"Book".equals( name.getLocalPart( ) ) )
            throw new XMLStreamException( name.toString( ) );
        reader.nextTag( ); // Jump to <Data>
        readBook( reader );
        reader.nextTag( ); // Jump to </B>
    }
}

private void readBook( XMLStreamReader reader ) throws XMLStreamException
{
    reader.nextTag( ); // Skip to <Author>
    System.out.println( "Author: " + reader.getElementText( ) );
    reader.nextTag( ); // Skip to <Edition>
    System.out.println( "Edition: " + reader.getElementText( ) );
    reader.nextTag( ); // Skip to <PubHouse>
    System.out.println( "Publisher: " + reader.getElementText( ) );
    reader.nextTag( ); // Skip to <Price>
    System.out.println( "Price: " + reader.getElementText( ) );
    reader.nextTag( ); // Skip to </Book>

}

写这样的东西不仅使代码更容易阅读和推理，而且当错误弹出时，堆栈跟踪也是如此。

score 1 · Accepted Answer

听起来您可能在这里选择了错误的工具：Stax 是一个很棒的 API，可用于有效处理大型内容。但是如果方便比效率更重要，是的，您可能应该考虑树模型（不一定是 DOM，例如 XOM 更好）或数据绑定（JAXB 或 XStream）。具体来说，像 SAX 这样的 Stax 是基于流的，因此您只能看到当前事件或令牌。没有儿童或父母的访问器，因为没有保证可以到达他们的方法，因为考虑到当前的流位置，这不一定是可能的。

但是如果性能或内存使用是一个问题，您仍然可以考虑 JAXB（它通常比 DOM 之类的树模型更有效）或StaxMate。StaxMate 是对 Stax 的高性能、低内存使用扩展，使用起来更方便。虽然您仍然需要按文档顺序遍历元素，但它的光标方法更自然地映射到父子查找。所以它可能适用于你的情况。

java - java使用StAX以通用方式获取子元素

2 回答 2

Related

Reference