3

我正在开发一个电子商务搜索引擎,允许您在许多电子商务网站中搜索产品。

我该如何处理这件事?

我需要一个能够扫描网站、解析其 HTML 并确定网站中哪些图像是产品图像、哪些是产品描述、哪些是产品价格的应用程序。

很高兴听到任何想法,例如。

提前致谢。

编辑:我的问题不是如何从网站获取 HTML(这称为屏幕抓取),而是更多关于如何解析该信息并了解哪些 html 包含我正在寻找的实际数据,哪些不是。

4

2 回答 2

2

您可能会发现此线程对您的任务很有帮助。我已经概述了那里的基本步骤。这是所有在 SO 上标记为“ Screen-scraping ”的问题的链接。此外,网络上有很多资料 -谷歌

于 2009-02-06T07:11:10.173 回答
1

您要抓取的大多数网站(更准确地说是网络抓取)都有用于“经销商”类型交易的合作伙伴 API。为了让您通过屏幕抓取来规避这一点,您会很快发现您的 IP 被他们的流量服务器阻止,并可能使您陷入法律困境。

这充其量在道德上是可疑的。

于 2009-02-06T07:14:12.883 回答