java - 以零依赖从 Java 字符串中去除 HTML 标记

Question

我知道这个问题与这个问题和其他问题非常相似。我有同样的问题（如何从 Java 字符串中去除 HTML 标记？），并添加了我不想在代码中添加任何依赖项（Apache Commons、Spring 等）的约束。

因此，我正在寻找许多其他框架使用的 HTML 标签剥离算法的“纯 Java SE”风格，但不确定从哪里开始。提前致谢。

score 0 · Accepted Answer

在不明确使用 HTMLEditorKit 的情况下：

    String html = "<html>...";
    JTextPane pane = new JTextPane();
    pane.setContentType("text/html");
    pane.setText(html);
    StyledDocument doc = pane.getStyledDocument();
    try {
        System.out.println("Text: " + doc.getText(0, doc.getLength()));
    } catch (BadLocationException ex) {
        Logger.getLogger(NewJFrame.class.getName()).log(Level.SEVERE, null, ex);
    }

java - 以零依赖从 Java 字符串中去除 HTML 标记

1 回答 1

Related

Reference