2

我可以从我的 Android 应用程序的网页中提取标题和内容(段落),但有时无法获取图像。

但是,我找不到在提取器中保留其 html 格式参数(例如粗体、带有超链接、下划线或字体大小等)的方法。

也就是说,如果网页中的句子带有粗体、超链接或下划线,我该如何提取句子本身及其格式参数?

我试过这个页面:一篇Web-API和本地 jar 中的 API 撰写的文章。

我想使用本地 API 获得与 Web-API 相同的结果。

有人可以分享您对此问题的经验吗?

非常感谢,

詹姆士


编辑#1

以下是代码:

signalUpdate(STATE.Start);

//
htmlDoc = HTMLFetcher.fetch(new URL(url));

//                  
doc = new BoilerpipeSAXInput(htmlDoc.toInputSource()).getTextDocument();
extraction.setTitle(doc.getTitle());        // obtaining title

ArticleExtractor.INSTANCE.process(doc);     // obtaining content
SplitParagraphBlocksFilter.INSTANCE.process(doc);

contentBuilder.setLength(0);

for(TextBlock block : doc.getTextBlocks()) {
    blockString = "<p>" + block.getText() + "</p>";
    contentBuilder.append(blockString);
}

extraction.setContent(contentBuilder.toString());

// obtaining image
extractor = CommonExtractors.ARTICLE_EXTRACTOR;
ie = ImageExtractor.INSTANCE;
imgUrls = ie.process(new URL(url), extractor);
extraction.setImgUrls(imgUrls);

//
signalUpdate(STATE.Complete);

实际上,我所说的“失败”是指:

我可以从一些网站获取图像。但是,我无法在上面提到的这篇文章中获得图像。

4

0 回答 0