java - 使用 jsoup 解析 html 但不关注/获取链接

Question

什么是使用JSoup解析 html 字符串或流而不为链接/img/area/iframe（以及其他任何）标签获取外部数据的“正确”方法？现在，在使用Apache HttpComponents获取页面后，我正在做这样的事情：

HttpEntity entity = response.getEntity();
InputStream is = entity.getContent();
Document = JSoup.parse(is, null, "");

这实际上工作正常。但是将 baseUri 作为空传递只是感觉不对，因为我打赌 JSoup 会尝试使用它，但会失败并继续前进。我只想将 JSoup 用作 html 解析器和 DOM 操作工具包，而不是 http 框架。我也有点担心 JSoup 可能会尝试="/foo"在当前目录或其他地方寻找资源。它对空字符串有什么作用？我尝试null作为 baseUri 传递，这将是执行我想要的操作的自然接口，但它会因 IllegalStateException 而死。

有没有办法做到这一点，还是我什么都不担心？

score 1 · Accepted Answer

...我认为 JSoup 不会那样做。URL 参数仅用于相对 URL 的规范化，您对它们做什么是您的责任。JSoup 本身不会尝试访问资源。

java - 使用 jsoup 解析 html 但不关注/获取链接

1 回答 1

Related

Reference