html - 从混合 xml/html 中仅提取前缀元素的更简单方法

Question

这是我的工作噩梦：我们有一堆文件是 html 页面，但其中包含额外的 xml 元素（都以我们的公司名称“TLA”为前缀）为我现在正在重写的旧程序提供数据和结构。

示例表格：

<html >
<head>
    <title>Highly Simplified Example Form</title>
</head>
<body>
    <TLA:document>
        <TLA:contexts>
            <TLA:context id="id_1" value=""></TLA:context>
        </TLA:contexts>
        <TLA:page>
            <TLA:question id="q_id_1">
                <table>
                    <tr>
                        <td>
                            <input id="input_id_1" type="text" />
                        </td>
                    </tr>
                </table>
            </TLA:question>
        </TLA:page>
        <!-- Repeat many times -->
    </TLA:document>
</body>
</html>

我的任务是编写一个预处理器，它将这样的文档拆分为两个文档：一个仅包含“TLA”元素的 xml 文件和一个仅包含 html 元素的 html 文件。

示例 XML：

<?xml version="1.0" encoding="utf-8" ?>
<TLA:document>
    <TLA:contexts>
      <TLA:context id="id_1" value=""></TLA:context>
    </TLA:contexts>
    <TLA:page>
      <TLA:question  id="q_id_1">
      </TLA:question>
    </TLA:page>
    <!-- Repeat many times -->
</TLA:document>

示例 HTML：

<html >
<head>
    <title>Highly Simplified Example Form</title>
</head>
<body>
    <table>
        <tr>
            <td>
                <input id="input_id_1" type="text" />
            </td>
        </tr>
    </table>
    <!-- Repeat many times -->
</body>
</html>

现在我可以通过一次处理每个元素并将它们复制到新文档来做到这一点，但我认为可能有一种更简单的方法可以通过使用一两次转换或一些巧妙的序列化来做到这一点，但我没有想法探索哪些途径。

那么有人对如何处理这个有建议吗？理想情况下 VB.net 但 C# 或其他东西也是可以接受的。

更新：

似乎 xslt 是做到这一点的方法，但我对此知之甚少，以至于我仍然需要一些帮助。似乎 //namespace::TLA 可能是提取数据元素的正确 xpath，但我不知道如何实现它。

score 2 · Accepted Answer

XSLT 是解决这个问题的最佳选择。

要提取 HTML，请参阅此问题。
要提取名称空间，请参阅此问题。

html - 从混合 xml/html 中仅提取前缀元素的更简单方法

1 回答 1

Related

Reference