1

我目前正在尝试开发一个应用程序,它可以访问以下站点(http://lulpix.com)并解析 HTML 并从以下部分获取 img src

<div class="pic rounded-8" style="overflow:hidden;"><div style="margin:0 0 36px 0;overflow:hidden;border:none;height:474px;"><img src="**http://lulpix.com/images/2012/April/13/4f883cdde3591.jpg**" alt="All clogged up" title="All clogged up" width="319"/></div></div>

每次加载页面时它当然不同,所以我不能给一个异步图片库的直接 URL,这是我打算做的,例如

加载页面 > 解析 img src > 将异步下载到 imageview > 重新加载 lulpix.com > 重新开始

然后将这些中的每一个放置在一个图像视图中,用户可以从该视图中左右滑动来浏览。

所以 TL;DR 是,我如何解析 html 以检索 URL,并且有没有人有任何使用 libarys 来显示图像的经验。

非常感谢。

4

3 回答 3

3

这是一个连接到 lulpix 的 AsyncTask,伪造了一个引用者和用户代理(lulpix 显然试图通过一些非常蹩脚的检查来阻止抓取)。在您的Activity:

new ForTheLulz().execute();

结果Bitmap以非常蹩脚的方式下载(没有缓存或检查图像是否已经是 DL:ed)& 错误处理总体上是不存在的 - 但基本概念应该没问题。

class ForTheLulz extends AsyncTask<Void, Void, Bitmap> {
        @Override
        protected Bitmap doInBackground(Void... args) {
            Bitmap result = null;
            try {
                Document doc = Jsoup.connect("http://lulpix.com")
                        .referrer("http://www.google.com")
                        .userAgent("Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US; rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6")
                        .get();
                        //parse("http://lulpix.com");
                if (doc != null) {
                    Elements elems = doc.getElementsByAttributeValue("class", "pic rounded-8");
                    if (elems != null && !elems.isEmpty()) {
                        Element elem = elems.first();
                        elems = elem.getElementsByTag("img");
                        if (elems != null && !elems.isEmpty()) {
                            elem = elems.first();
                            String src = elem.attr("src");
                            if (src != null) {
                                    URL url = new URL(src);
                                    // Just assuming that "src" isn't a relative URL is probably stupid.
                                    InputStream is = url.openStream();
                                    try {
                                        result = BitmapFactory.decodeStream(is);
                                    } finally {
                                        is.close();
                                    }
                            }
                        }
                    }
                }
            } catch (IOException e) {
                // Error handling goes here
            }
            return result;
        }
        @Override
        protected void onPostExecute(Bitmap result) {
            ImageView lulz = (ImageView) findViewById(R.id.lulpix);
            if (result != null) {
                lulz.setImageBitmap(result);
            } else {
                //Your fallback drawable resource goes here
                //lulz.setImageResource(R.drawable.nolulzwherehad);
            }
        }
    }
于 2012-04-14T13:20:53.783 回答
0

最近用JSoup解析无效的HTML,效果很好!做类似...

    Document doc = Jsoup.parse(str);
    Element img = doc.body().select("div[class=pic rounded-8] img").first();
    String src = img.attr("src");

玩“选择器字符串”以使其正确,但我认为上述方法可行。div它首先根据其属性的值选择外部元素class,然后选择任何后代img元素。

于 2012-04-14T13:24:26.230 回答
0

现在不需要使用 webview 检查这个示例项目

https://github.com/meetmehdi/HTMLImageParser.git

在这个示例项目中,我解析 html 和图像标签,而不是从图像 URL 中提取图像。图像已下载并显示。

于 2019-04-12T05:13:34.553 回答