0

我有类似这样的数据集:

<NDL>
<REPLICA 4925770B:0025BA85>
<VIEW OF64623968:A2336DB0-ON49256C46:002ACF42>
<NOTE OFA52D3E8C:0ED3F84A-ON605F586A:5D1C1FAA>
<HINT>CN=YW8LN6/O=TDK-JP</HINT>
<REM>Database 'Shunya Sato', View '受信ボックス', Document '[Requirement management system - Feature #125] (New) Collect example of LN link'</REM>
</NDL>

我需要检索标签所包含的内容<HINT>,以及 , 和标签中的伪属性。是否有一些库可以帮助我解决这个问题,或者是希望所有内容始终按此顺序并使用拆分/查找/其他内置内容的最佳方式?

4

1 回答 1

1

不幸的是,除非您编写一个可以将您拥有的内容转换为 XML 的自定义解析器,否则您将无法使用任何传统的 XML 库来读取您的数据。人们可以通过 HTML 执行 XML 查询的唯一原因是因为有明确定义的方法可以将 HTML 转换为 DOM,然后可以将其转换为 XML。对于您的数据,情况并非如此。

虽然您的数据可能类似于 XML,但它唯一的共同点是使用<>分隔字段。因此,您最好使用字符串搜索和拆分来获取所需的字段。

于 2013-07-16T23:41:25.440 回答