3

我有一千个 HTML 文件的集合,需要对它们进行一些修剪。我需要删除<body></body>除一个之外的区域内的所有标签<div.pg>,以使它们干净以便打印。多余的是导航链接,它们使打印变得凌乱,并使页面占用更多纸张。内容不一样,所以我找不到并替换代码摘录,但标签是相同的敌人示例有 3 个<table>标签要删除,每个标签都有特定的类。操作批处理 HTML 文件中的特定标签?

任何批处理技术或软件来完成这项工作?Windows上有什么简单的解决方案?

4

2 回答 2

2

我会在您拥有的每个 html 页面上使用 xslt 转换。Batch 不是处理 html 文件的工具。您可以使用批处理作为“管理器”将所需文件传递给 xsl 转换。Windows 也有一个基本的 msxml 实用程序,您可以下载并安装到您的机器上: http: //www.microsoft.com/download/en/details.aspx? displaylang=en&id=21714

我就是这样做的。我相信还有更多选择。

于 2011-09-27T20:58:18.230 回答
0

如果是 XHTML,您可以使用 XSLT 将您的 HTML 转换为“另一种”格式。在此处查看示例: http: //www.w3schools.com/xsl/或此处:http://help.hannonhill.com/discussions/how-do-i/269-strip-specific-html-tag-in- xslt

于 2011-09-27T21:03:19.743 回答