python - xpath 函数开始 - 不返回所有必需的信息

翻译自：https://stackoverflow.com/questions/9035436 2012-01-27T15:09:50.883

1350 次

当在 Scrapy Shell 中使用 xpath 从网页上的某个<p>标签中选择电子邮件地址时，xpath 会返回<a>该特定段落中的所有链接。因此，我尝试使用 starts-with 函数来进一步细化我想要返回的信息，这很成功，但会切断电子邮件地址的结尾。

hxs.select('//*[@id="rightCol02"]/p/a[starts-with(@href,"mailto")]')

以上返回不完整的电子邮件地址。

运行 hxs.select 时不使用starts-with 函数，我观察到以下情况：

hxs.select('//*[@id="xxxxxxx"]/p/a')- （返回所有 URL 和电子邮件地址结尾被截断的链接。）

hxs.select('//*[@id="xxxxxxx"]/p/a/@href')- （返回完整的电子邮件地址和 URL。）

问题是如何开始捕获整个电子邮件地址？

我尝试了以下方法，但不确定语法应该是什么：

hxs.select('//*[@id="xxxxxxxx"]/p/a/@href[starts-with("mailto:")]')

0 回答 0