boilerpipe - 使用boilerpipe保留样板

Question

此外，对于每个文本块，它是否包含某种关于它是否是样板的信心？

谢谢。

score 1 · Accepted Answer

您可以使用 Document classes 样板提供的完整文本或遍历实际文本块：

final HTMLDocument htmlDoc = HTMLFetcher.fetch(new URL(url));
final TextDocument doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
// doc.getText(true, true) will give you all the text
// doc.getTextBlocks will let you traverse the document

boilerpipe - 使用boilerpipe保留样板

1 回答 1

Related

Reference