我正在尝试以编程方式(在 Java 中)提取与特定日期相对应的文章列表(标题和 URL 链接),如此处所示。
结果将是这样的:
Thursday, January 31, 2013
- Dollar Curbs Tumble Despite....
- http://finance.yahoo.com/news/dollar-curbs-tumble-despite-gdp-051100047.html
Wednesday, January 30,2013
- [video] Santelli's Midday Bond Report
- http://us.rd.yahoo.com/finance/external/video/cnbc/SIG=110mfa5qs/*http://video.cnbc.com/gallery/?video=3000144631&__source=yahoo%7Cheadline%7Cquote%7Cvideo%7C&par=yahoo
因此,如图所示,对于给定的日期,我正在尝试使用 HtmlUnit 提取所有标题/链接。
问题是:对于这项琐碎的任务,我对 HTML/DOM 的了解非常有限,如果有人能帮助我解决这个问题或为我指明正确的方向,我将不胜感激。
谢谢你。
编辑:检查页面时,似乎我正在寻找的标签包含在交替的“h3”和“ul”标签中。我只是不知道如何到达和遍历这些标签..