什么是使用JSoup解析 html 字符串或流而不为链接/img/area/iframe(以及其他任何)标签获取外部数据的“正确”方法?现在,在使用Apache HttpComponents获取页面后,我正在做这样的事情:
HttpEntity entity = response.getEntity();
InputStream is = entity.getContent();
Document = JSoup.parse(is, null, "");
这实际上工作正常。但是将 baseUri 作为空传递只是感觉不对,因为我打赌 JSoup 会尝试使用它,但会失败并继续前进。我只想将 JSoup 用作 html 解析器和 DOM 操作工具包,而不是 http 框架。我也有点担心 JSoup 可能会尝试="/foo"
在当前目录或其他地方寻找资源。它对空字符串有什么作用?我尝试null
作为 baseUri 传递,这将是执行我想要的操作的自然接口,但它会因 IllegalStateException 而死。
有没有办法做到这一点,还是我什么都不担心?