0

什么是使用JSoup解析 html 字符串或流而不为链接/img/area/iframe(以及其他任何)标签获取外部数据的“正确”方法?现在,在使用Apache HttpComponents获取页面后,我正在做这样的事情:

HttpEntity entity = response.getEntity();
InputStream is = entity.getContent();
Document = JSoup.parse(is, null, "");

这实际上工作正常。但是将 baseUri 作为空传递只是感觉不对,因为我打赌 JSoup 会尝试使用它,但会失败并继续前进。我只想将 JSoup 用作 html 解析器和 DOM 操作工具包,而不是 http 框架。我也有点担心 JSoup 可能会尝试="/foo"在当前目录或其他地方寻找资源。它对空字符串有什么作用我尝试null作为 baseUri 传递,这将是执行我想要的操作的自然接口,但它会因 IllegalStateException 而死。

有没有办法做到这一点,还是我什么都不担心?

4

1 回答 1

1

...我认为 JSoup 不会那样做。URL 参数仅用于相对 URL 的规范化,您对它们做什么是您的责任。JSoup 本身不会尝试访问资源。

于 2013-09-15T05:58:23.317 回答