0

我刚刚开始从事内容提取项目。首先,我尝试访问网页中的图像 URL。在某些情况下,“img”的“src”属性具有相对 URL。但我需要获取完整的 URL。

我一直在寻找一些 Java 库来实现这一点,并认为Jsoup会很有用。有没有其他图书馆可以轻松实现这一目标?

4

1 回答 1

1

如果您只需要从相对 URL 获取完整的 URL,Java 中的解决方案很简单:

URL pageUrl = base_url_of_the_html_page;
String src = src_attribute_value; //relative or absolute URL
URL imgUrl = new URL(pageUrl, src);

HTML 页面的基本 URL 通常只是您从中获取 HTML 代码的 URL。但是,文档标题中使用的 <base> 标记可用于指定不同的基本 URL(但不经常使用)。

您可以使用 Jsoup 或仅使用 DOM 解析器来获取 src 属性值并查找最终的基本标记。

于 2013-02-20T08:49:33.960 回答