我想从谷歌图片搜索中收集图片。但是,我经常收到错误通知。
例如,https://www.google.com/search?q=banana&hl=en&gws_rd=ssl&tbm=isch
我的浏览器中的 URL 很好,但在网络收获中它报告说:对实体“gws_rd”的引用必须以 ';' 结尾 分隔符。
我猜 '&' 是 webharvest 中的一个特殊字符,但我找不到有关它的信息。你能弄清楚为什么吗?
这是代码:
<var-def name="search" overwrite="false">banana</var-def>
<var-def name="url"><template>http://images.google.com/images?q=${search}&hl=en</template></var-def>
<var-def name="xml">
<html-to-xml>
<http url="${url}"/>
</html-to-xml>
</var-def>
<var-def name="largeImgUrl">
<xpath expression="//*[@id='irc_cc']/div[4]/div[1]/div/div[2]/div[1]/a/img">
<var name="xml"/>
</xpath>
</var-def>