所以我写了一个代码来从面包屑中抓取当前类别的父类:
node_parent = @data.at_css(".bc a:nth-child(2)").text unless @data.at_css(".bc a:nth-child(2)").nil?
代码说:刮掉倒数第二个锚链接。这是 HTML 的结构:
<span class="bc">
<a href="">Home</a>
<span class="d">></span>
<img src="" />
<a href="/us/Apparel/1036682"">Apparel</a>
<div class="node"></div>
<a href="">...</a>
<span class="d">></span>
Baby
</span>
所以在这种情况下,代码会刮掉Apparel
问题是代码在这样的情况下会失败:
<span class="bc">
<a href="">Home</a>
<span class="d">></span>
<img src="" />
Apparel
</span>
由于没有倒数第二个锚链接。
有什么更好的解决方案?
页面的实时示例:
http://www.findbrowsenodes.com/us/Apparel/1036682 http://www.findbrowsenodes.com/us/Apparel/2402554011