1

我们想创建一个 java 爬虫 (crawler4j),它使用许多产品 EAN 与网上商店的主机合作,从一些已定义的网上商店收集价格、图片、产品描述等信息。这些信息应存储在 MSSQL 数据库中。到目前为止,我们已经成功地完成了一些关于从网站抓取图像的测试。

关键是,网店发送回浏览器的 html 页面不包含 ean。但是网上商店会为每个新请求生成 html 代码。

所以基本上可以根据请求User-Agent-String获取其他内容??我们是否只需要在用户代理字符串中包含“bot”或者获取我们想要的内容的常用方法是什么?

4

0 回答 0