我使用文章提取器从博客中提取数据,它以字符串格式返回文章。由于某些页面具有进入新闻内容的子链接,因此我也希望提取该数据。那么,如何访问子链接内的数据呢?我的代码是这样的:
String news =" ";
try
{
URL url;
url = new URL("http://www.firstpost.com/tag/crime-in-india");
InputSource is = HTMLFetcher.fetch(url).toInputSource();
BoilerpipeSAXInput in = new BoilerpipeSAXInput(is);
TextDocument doc = in.getTextDocument();
news = ArticleExtractor.INSTANCE.getText(doc);
}