0

我想从 xml 文件中提取 html 页面。请问有什么想法吗?

 <?xml ....>
      <first>
      </first>

         <second>
         </second>
      <xhtml>
          <html>
              .....some html code here
          </html>
      </xhtml>

我想从上面提取html页面。

4

3 回答 3

0

因为 xml 和 html 标记相似,所以任何 xml 解析器都可能存在问题。我建议当您将 html 数据保存在 xml 文件中时,对其进行编码以防止 xml 解析器出现问题。然后,当您从 xml 中调用数据时,您只需对其进行解码以供使用。

<?xml ....?
<first></first>
<second></second>
<markup>
    &lt;html&gt;
        code here
    &lt;/html&gt;
</markup>

当您解码标记部分时,它看起来像这样

<html>
    code here
</html>
于 2013-04-15T12:04:42.133 回答
0

您可能会发现这有一些用处:

http://www.w3schools.com/xml/xml_parser.asp

您可以使用 JavaScript 从 XML 中提取 HTML。然后,您可以使用 JavaScript 在您的 HTML 页面上创建一个元素并将 HTML 转储到其中。唯一的问题是您收到的 XML 数据似乎有一个 HTML 标记。

如果要将内容添加到现有页面,则必须去除 html 和 body 标签。

于 2013-04-15T12:22:48.650 回答
0

如果你使用python,提取可以很容易。

from simplified_scrapy.simplified_doc import SimplifiedDoc 
html='''
 <?xml >
    <first>
    </first>
        <second>
        </second>
    <xhtml>
        <html>
            .....some html code here
        </html>
    </xhtml>
'''
doc = SimplifiedDoc(html)
html = doc.xhtml.html
print (html)

首先你需要使用 pip 安装 simple_scrapy。

pip install simplified_scrapy
于 2019-12-12T01:00:54.140 回答