我想从 xml 文件中提取 html 页面。请问有什么想法吗?
<?xml ....>
<first>
</first>
<second>
</second>
<xhtml>
<html>
.....some html code here
</html>
</xhtml>
我想从上面提取html页面。
因为 xml 和 html 标记相似,所以任何 xml 解析器都可能存在问题。我建议当您将 html 数据保存在 xml 文件中时,对其进行编码以防止 xml 解析器出现问题。然后,当您从 xml 中调用数据时,您只需对其进行解码以供使用。
<?xml ....?
<first></first>
<second></second>
<markup>
<html>
code here
</html>
</markup>
当您解码标记部分时,它看起来像这样
<html>
code here
</html>
您可能会发现这有一些用处:
http://www.w3schools.com/xml/xml_parser.asp
您可以使用 JavaScript 从 XML 中提取 HTML。然后,您可以使用 JavaScript 在您的 HTML 页面上创建一个元素并将 HTML 转储到其中。唯一的问题是您收到的 XML 数据似乎有一个 HTML 标记。
如果要将内容添加到现有页面,则必须去除 html 和 body 标签。
如果你使用python,提取可以很容易。
from simplified_scrapy.simplified_doc import SimplifiedDoc
html='''
<?xml >
<first>
</first>
<second>
</second>
<xhtml>
<html>
.....some html code here
</html>
</xhtml>
'''
doc = SimplifiedDoc(html)
html = doc.xhtml.html
print (html)
首先你需要使用 pip 安装 simple_scrapy。
pip install simplified_scrapy