java - 难以从新闻网页中提取主要内容

Question

我需要从新闻网页中提取主要内容（不包括链接、广告等）。我在网上阅读过它并知道要做到这一点，我需要解析 html 页面，然后从 html 标签中选择内容。我编写了一个代码，该代码将 html 文件作为输入，并使用 java.swing.* 中提供的 Htmleditorkit 从网页中提取文本。

import java.io.IOException;
import java.io.FileReader;
import java.io.Reader;
import java.util.List;
import java.util.ArrayList;

import javax.swing.text.html.parser.ParserDelegator;
import javax.swing.text.html.HTMLEditorKit.ParserCallback;
import javax.swing.text.html.HTML.Tag;
import javax.swing.text.MutableAttributeSet;

public class HTMLUtils {
private HTMLUtils() {}

public static List<String> extractText(Reader reader) throws IOException {
final ArrayList<String> list = new ArrayList<String>();

ParserDelegator parserDelegator = new ParserDelegator();
ParserCallback parserCallback = new ParserCallback() {
        @Override
  public void handleText(final char[] data, final int pos) {
    list.add(new String(data));
  }
        @Override
  public void handleStartTag(Tag tag, MutableAttributeSet attribute, int pos) { }
        @Override
  public void handleEndTag(Tag t, final int pos) {  }
        @Override
  public void handleSimpleTag(Tag t, MutableAttributeSet a, final int pos) { }
        @Override
  public void handleComment(final char[] data, final int pos) { }
        @Override
  public void handleError(final java.lang.String errMsg, final int pos) { }
 };
 parserDelegator.parse(reader, parserCallback, true);
 return list;
}

public static void main(String[] args) throws Exception{
FileReader reader = new FileReader("C://Users//Mukul//Desktop//demo.html");
List<String> lines = HTMLUtils.extractText(reader);
for (String line : lines) {
  System.out.println(line);
}
}
}

但我的问题是我无法弄清楚如何仅从网页中选择主要内容，例如新闻网页中的文章。

另外，我想知道我进行解析的方式很好，或者我应该使用一些开源库，如 Jsoup、Jtidy 等。对于同样的事情。

请帮助我并纠正我做错的地方。

score 0 · Accepted Answer

好吧，您有两个问题，一个是获取页面内容（我猜是语法），为此我会使用以下成语：（并不是您发布的代码有什么严重错误，对我来说有点太冗长了）

String text = new Scanner( new URL("C://Users//Mukul//Desktop//demo.html").openConnection().getInputStream()).useDelimiter("\\A").next();

另一个是解释您刚刚阅读的字符串（语义）。我认为没有一个正确的答案，但如果您每次都想解析它的一个页面，它应该有一些固定的布局。您必须找到一些模式来区分主要内容与广告、标题、链接等，然后也许您可以使用正则表达式提取它。

检查这个：http ://code.google.com/p/boilerpipe/

java - 难以从新闻网页中提取主要内容

1 回答 1

Related

Reference