我正在开发一个电子商务搜索引擎,允许您在许多电子商务网站中搜索产品。
我该如何处理这件事?
我需要一个能够扫描网站、解析其 HTML 并确定网站中哪些图像是产品图像、哪些是产品描述、哪些是产品价格的应用程序。
很高兴听到任何想法,例如。
提前致谢。
编辑:我的问题不是如何从网站获取 HTML(这称为屏幕抓取),而是更多关于如何解析该信息并了解哪些 html 包含我正在寻找的实际数据,哪些不是。
我正在开发一个电子商务搜索引擎,允许您在许多电子商务网站中搜索产品。
我该如何处理这件事?
我需要一个能够扫描网站、解析其 HTML 并确定网站中哪些图像是产品图像、哪些是产品描述、哪些是产品价格的应用程序。
很高兴听到任何想法,例如。
提前致谢。
编辑:我的问题不是如何从网站获取 HTML(这称为屏幕抓取),而是更多关于如何解析该信息并了解哪些 html 包含我正在寻找的实际数据,哪些不是。
您可能会发现此线程对您的任务很有帮助。我已经概述了那里的基本步骤。这是所有在 SO 上标记为“ Screen-scraping ”的问题的链接。此外,网络上有很多资料 -谷歌。
您要抓取的大多数网站(更准确地说是网络抓取)都有用于“经销商”类型交易的合作伙伴 API。为了让您通过屏幕抓取来规避这一点,您会很快发现您的 IP 被他们的流量服务器阻止,并可能使您陷入法律困境。
这充其量在道德上是可疑的。