我必须从新闻链接中提取发布时间和文章内容。
例如:从此链接 http://techcrunch.com/2013/03/19/jawbone-android/
我必须将发布时间和文章内容提取为
发布时间:昨天发布
文章内容:Jawbone 今天宣布,该公司的运动追踪腕带 UP 应用程序现在可以在 Google Play 上免费下载 Android 版本。129 美元的 UP 之前只与 iOS 兼容。腕带现在也可以购买了......
我必须从新闻链接中提取发布时间和文章内容。
例如:从此链接 http://techcrunch.com/2013/03/19/jawbone-android/
我必须将发布时间和文章内容提取为
发布时间:昨天发布
文章内容:Jawbone 今天宣布,该公司的运动追踪腕带 UP 应用程序现在可以在 Google Play 上免费下载 Android 版本。129 美元的 UP 之前只与 iOS 兼容。腕带现在也可以购买了......
我认为你可以使用 jsoup
jsoup 是一个用于处理真实世界 HTML 的 Java 库。它提供了一个非常方便的 API 用于提取和操作数据,使用最好的 DOM、CSS 和类似 jquery 的方法。
对于文章文本提取,您可以使用BoilerPipe
ArticleExtractor extractor = ArticleExtractor.INSTANCE
String articleText = extractor.getText(yourHTML);