1

我在抓取一个网站时遇到问题 - motoallegro

我想获取此页面中所有广告的标题

所以我在谷歌电子表格中设置了公式:

=ImportXML("http://allegro.pl/samochody-149?order=qd&string=Primera+GT&search_scope=automotive&department=automotive";"//header/h2/a/span")

此公式始终返回 #NA 错误:由于 XPath 查询未收到任何数据

但如果我尝试从同一页面获取其他数据,例如 H1 文本:

=ImportXML("http://allegro.pl/samochody-149?order=qd&string=Primera+GT&search_scope=automotive&department=automotive";"//h1/span")

结果正确:“Primera GT”

我想补充一点,xPath 规则 - //header/h2/a/span 是正确的。我在几个 firefox xPath 插件上对其进行了测试。

任何想法,为什么谷歌电子表格公式 ImportXML 与正确的 xPath 规则不返回正确的数据?

4

1 回答 1

2

谷歌似乎去除了非 HTML4 标记,如<header/><section/>. 您可以使用<div id="listing">...</div>仅访问您需要的标题。

试试这个 XPath 表达式:

//div[@id='listing']//h2/a/span
于 2013-05-13T10:28:57.667 回答