python - Scrapy：仅获取 ALIGN=RIGHT 的 td 元素

Question

我正在使用scrapy从这个网站上抓取数据：http ://www.nuforc.org/webreports/ndxevent.html

我需要将日期与 UFO 目击次数分开，是的，令人兴奋！

这是我正在抓取的示例

<TR VALIGN=TOP> <TD><FONT style=FONT-SIZE:11pt FACE="Calibri" COLOR=#000000><A HREF= ndxe201303.html>03/2013</A></TD> <TD ALIGN=RIGHT><FONT style=FONT-SIZE:11pt FACE="Calibri" COLOR=#000000>108</TD>

所以在这个例子中 date = 03/2013, count = 108

现在日期不是问题，因为我可以做到

hxs.select('//tbody//td//font//a//text()').extract()

获取“a”标签中的文本。

但是有没有办法从具有 ALIGN=RIGHT 样式的 td 元素中获取文本。我查看了文档和选择器，但我很困惑

hxs.select('//tbody[contains(td, "ALIGN")]').extract()

?

score 1 · Accepted Answer

这将从所有<td>具有属性 ALIGN="RIGHT"的文本中选择文本：

hxs.select('//tbody//td[@ALIGN="RIGHT"]//text()').extract()

python - Scrapy：仅获取 ALIGN=RIGHT 的 td 元素

1 回答 1

Related

Reference