java - 使用 SAX (Java) 解析来自单个 TCP 流的多个 XML 消息

Question

我处于使用 Java 连接到 TCP 端口并一个接一个地流式传输 XML 文档的位置，每个文档都<?xml以文档标记的开头分隔。演示格式的示例：

<?xml version="1.0"?>
<person>
    <name>Fred Bloggs</name>
</person>
<?xml version="1.0"?>
<person>
    <name>Peter Jones</name>
</person>

我正在使用org.xml.sax.*api。SAX 解析对第一个文档非常有效，但在遇到第二个文档的开头时会引发异常：

Exception in thread "main" org.xml.sax.SAXParseException: The processing instruction 
target matching "[xX][mM][lL]" is not allowed.

以下骨架类演示了我正在使用的设置：

import org.xml.sax.InputSource;
import org.xml.sax.XMLReader;
import org.xml.sax.helpers.DefaultHandler;
import org.xml.sax.helpers.XMLReaderFactory;

import java.io.FileReader;

public class XMLTest extends DefaultHandler {

  public XMLTest() {
     super();
  }

  public static void main(String[] args) throws Exception {
    XMLReader xr = XMLReaderFactory.createXMLReader();

    XMLTest handler = new XMLTest();
    xr.setContentHandler(handler);
    xr.setErrorHandler(handler);

    xr.parse(new InputSource(new Socket("127.0.0.1", 4555).getInputStream()));
  }
}

我无法控制 xml 的格式（它是一个财务数据馈送），但我需要能够有效地解析它，并解析所有文档。我花了一个下午/晚上尝试不同的事情，但没有一个产生结果。任何帮助将不胜感激。

score 7 · Accepted Answer

您想在每个上拆分流<?xml version="1.0"?>并分别解析它们。BufferedReader可能对此有所帮助。开球示例：

reader = new BufferedReader(new InputStreamReader(input, "UTF-8"));
StringBuilder builder = null;
for (String line; (line = reader.readLine()) != null;) {
    if (line.startsWith("<?xml")) {
        if (builder != null) {
            xr.parse(new InputSource(builder.toString()));
        }
        builder = new StringBuilder();
    }
    builder.append(line);
}

java - 使用 SAX (Java) 解析来自单个 TCP 流的多个 XML 消息

1 回答 1

Related

Reference