1
public String transform_XML(String type, InputStream file){
        TransformerFactory tf = TransformerFactory.newInstance();
        String xslfile = "/StyleSheets/" + type + ".xsl";
        Transformer t = tf.newTemplates(new StreamSource(this.getClass().getResourceAsStream(xslfile))).newTransformer();
        Source source = new StreamSource(file);
        CharArrayWriter wr = new CharArrayWriter();
        StreamResult result = new StreamResult(wr);
        t.transform(source, result);
     return wr.toString();
}

上述方法将 xsl 和 xml 文件作为输入,并将转换后的结果作为字符串返回。包 javax.xml.transform 中的类已用于完成此操作。

现在我可以使用相同的包来转换 html 文件吗?(因为包名有 xml 我严重怀疑它。)我应该怎么做来转换一个 html 文件?

4

3 回答 3

1

如您所知,html 文档不一定是有效的 xml。但是您可以将 html 转换为 xml,然后使用有效的 xml 进行操作(转换后 - 您将获得 DOM 树)。

我建议您使用Cyber​​Neko HTML Parser转换htmlxml.

草稿示例:

import org.cyberneko.html.parsers.DOMParser;
import org.w3c.dom.Document;
...
public Document parseHtml(InputStream is) throws Exception {
    DOMParser parser = new DOMParser();
    parser.parse(new InputSource(is));
    return parser.getDocument();
}

如果您使用maven- 您可以简单地CyberNeko从存储库http://mvnrepository.com/artifact/nekohtml/nekohtml添加到您的项目

于 2012-11-23T11:52:59.663 回答
1
public class SimpleXSLT {
  public static void main(String[] args) {

    String inXML = "C:/tmp/temp.html";
    String inXSL = "C:/tmp/temp.xsl";
    String outTXT = "C:/tmp/temp_copy.html";
    SimpleXSLT st = new SimpleXSLT();
    try {
        st.transform(inXML,inXSL,outTXT);
        } catch(TransformerConfigurationException e) {
        System.err.println("Invalid factory configuration");
        System.err.println(e);
        } catch(TransformerException e) {
        System.err.println("Error during transformation");
        System.err.println(e);
    }
  }

  public void transform(String inXML,String inXSL,String outTXT)
     throws TransformerConfigurationException,
   TransformerException {
     TransformerFactory factory = TransformerFactory.newInstance();
     StreamSource xslStream = new StreamSource(inXSL);
     Transformer transformer = factory.newTransformer(xslStream);
     transformer.setErrorListener(new MyErrorListener());
     StreamSource in = new StreamSource(inXML);
     StreamResult out = new StreamResult(outTXT);
     transformer.transform(in,out);
     System.out.println("The generated XML file is:" + outTXT);
  }
}
于 2012-11-23T11:42:02.667 回答
1

据我了解您的评论,主要是为了获取信息

你可以看看JSoup,它非常方便地从 HTML 中解析和抓取 DOM

否则,如果你想保留你的 xslts,stemm 解决方案应该没问题

于 2012-11-23T13:43:52.990 回答