html - 使用 xmlstarlet 提取 HTML

Question

我正在尝试从 bash shell 脚本中提取 HTML 文档的特定部分并且一直在使用xmlstarlet sel ，但我不能完全让它返回实际的 HTML，而不仅仅是来自 HTML 标签的文本值。

我正在尝试如下命令行：

xmlstarlet sel -t -m "//div[@id='mw-content-text']" -v "." wiki.html

但它只提供文本，没有任何 HTML/XML 标记。对于信息，我正在尝试将此数据导出为它来自的 mediawiki 实例之外的 HTML 格式。

如果 xmlstarlet 是错误的工具，我们也非常感谢您对其他工具的任何建议！

score 3 · Accepted Answer

-v表示--value-of哪个是标签的内容。您应该使用-cor--copy-of来获取标签本身。

xmlstarlet sel -t -m "//div[@id='mw-content-text']" -c "." wiki.html

要不就

xmlstarlet sel -t -c "//div[@id='mw-content-text']" wiki.html

1 回答 1