2

我在我的应用程序中使用 Boilerpipe,当我尝试使用 ArticleExtractor 提取内容时,我只获取平面文本,所有 html 格式都已被删除,所以我尝试使用 HtmlHighlighter。但是 HtmlHighlighter 的处理方法对于某些 url 失败。是否有任何选项可以使用 html 字符串传递给此方法?谁能解释一下?

4

1 回答 1

0

您可以使用IKVM将 Boilerpipe jar 转换为新的 DLL 以在您的 .NET 应用程序中使用。我正在使用这种方法,并且在发送 html 抛出不同的锅炉管方法时工作正常。

如果您尝试访问的页面内容是由 javascript 加载的,则简单的 http 请求无法处理此类信息。首先你需要在 javascript 更改后获取结果 html,然后将其提供给boilerpipe。

于 2016-06-01T09:47:16.183 回答