我正在使用boilerpipe
库来分析新闻文章。新闻文章包含很多样板,例如版权信息、相关文章的侧窗格等,Boilerpipe
删除了所有这些信息。是否可以返回样板信息?我需要从版权声明等中分析和提取一些东西。
此外,对于每个文本块,它是否包含某种关于它是否是样板的信心?
谢谢。
我正在使用boilerpipe
库来分析新闻文章。新闻文章包含很多样板,例如版权信息、相关文章的侧窗格等,Boilerpipe
删除了所有这些信息。是否可以返回样板信息?我需要从版权声明等中分析和提取一些东西。
此外,对于每个文本块,它是否包含某种关于它是否是样板的信心?
谢谢。
您可以使用 Document classes 样板提供的完整文本或遍历实际文本块:
final HTMLDocument htmlDoc = HTMLFetcher.fetch(new URL(url));
final TextDocument doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
// doc.getText(true, true) will give you all the text
// doc.getTextBlocks will let you traverse the document