0

我正在使用boilerpipe库来分析新闻文章。新闻文章包含很多样板,例如版权信息、相关文章的侧窗格等,Boilerpipe删除了所有这些信息。是否可以返回样板信息?我需要从版权声明等中分析和提取一些东西。

此外,对于每个文本块,它是否包含某种关于它是否是样板的信心?

谢谢。

4

1 回答 1

1

您可以使用 Document classes 样板提供的完整文本或遍历实际文本块:

final HTMLDocument htmlDoc = HTMLFetcher.fetch(new URL(url));
final TextDocument doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
// doc.getText(true, true) will give you all the text
// doc.getTextBlocks will let you traverse the document
于 2013-10-21T08:57:22.873 回答