1

我必须从新闻链接中提取发布时间和文章内容。

例如:从此链接 http://techcrunch.com/2013/03/19/jawbone-android/

我必须将发布时间和文章内容提取为

发布时间:昨天发布

文章内容:Jawbone 今天宣布,该公司的运动追踪腕带 UP 应用程序现在可以在 Google Play 上免费下载 Android 版本。129 美元的 UP 之前只与 iOS 兼容。腕带现在也可以购买了......

4

2 回答 2

2

我认为你可以使用 jsoup

http://jsoup.org/

jsoup 是一个用于处理真实世界 HTML 的 Java 库。它提供了一个非常方便的 API 用于提取和操作数据,使用最好的 DOM、CSS 和类似 jquery 的方法。

于 2013-03-20T10:15:15.507 回答
0

对于文章文本提取,您可以使用BoilerPipe

 ArticleExtractor extractor = ArticleExtractor.INSTANCE
 String articleText = extractor.getText(yourHTML);
于 2016-01-27T12:00:51.480 回答