这是有问题的页面:http: //phoenix.craigslist.org/cpg/
我想做的是创建一个如下所示的数组:
日期(由该页面上的 h4 标记捕获)=> 在单元格中[0][0][0]
,
链接文本 => 在单元格中[0][1][0]
链接 href => 在单元格中[0][1][1]
即在每一行中,我每行存储这些项目中的每一个。
我所做的只是将所有h4
标签拉入并将它们存储在这样的哈希中:
contents2[link[:date]] = content_page.css("h4").text
这样做的问题是一个单元格存储了整个页面上 h4 标签中的所有文本......而我希望有 1 个日期到 1 个单元格。
举个例子:
0 => Mon May 28 - Leads need follow up - (Phoenix) - http://phoenix.craigslist.org/wvl/cpg/3043296202.html
1=> Mon May 28 - .Net/Java Developers - (phoenix) - http://phoenix.craigslist.org/cph/cpg/3043067349.html
任何关于我如何使用代码来解决这个问题的想法将不胜感激。