4

我不确定我是否正确地标记了这个问题,但我知道很多新闻应用程序,如 Pulse、Google Currents 等,都会提取新闻文章的缩略图。我的问题是,我假设他们正在从新闻网站本身中提取内容,无论是屏幕抓取还是消费某种形式的提要。他们怎么知道从网站上提取哪个图像?

我用“android”标签来标记它,因为我已经构建了一个新闻阅读器应用程序,我想拉入一个缩略图图像。谢谢。

4

2 回答 2

1

我前段时间使用这种方法自己构建了这样的东西:

  1. 使用 Readability 框架处理文章(对于 Java,Google 发现了 jReadabilitySnacktoryJava- readability - 可能还有更多,其中一个也应该在 Android 上运行)。
  2. 在处理后的文章中,使用一些 DOM 框架抓取第一个图像以导航到第一个 img 标签。由于文章是“干净的”,这通常是一个可用的命中。

我建议在服务器上进行文章处理,而不是在电话上。

于 2012-11-03T14:40:44.163 回答
1

本文中,讨论了不同的技术。

缩略图提取的一个很好的例子是在reddit上进行的。有关 reddit 如何识别和裁剪缩略图的详细信息,请参见此处此处

于 2012-11-03T14:49:24.267 回答