我正在寻找一种解决方案,用于自动抓取解析整个网站(在线商店)并将所有产品保存为 CSV 中的产品名称和产品价格。
1 回答
从网站获取数据可能非常简单,也可能完全相反。这取决于网站的制作方式。商店往往是一个复杂的网站,因此 DOM(HTML 结构)对于该网站来说大多是独一无二的。其他人不太可能为该页面尝试过您想要的完全相同的东西。因此,您必须编写代码并提取必要的部分。
这将是我们的示例产品:http ://www.thomann.de/gb/focusrite_scarlett_2i2.htm
HTML 使用类来告诉 CSS(用于样式化)如何设计或呈现某个元素。您可以使用此行为并按类别查找包含价格的元素。在这个例子中是.tr-prod-price
.
每个主流浏览器都有一个发现元素功能,它可以用来为出现在屏幕上的元素找到一个类。右键单击您的文本(价格或标题)按 Q(仅限 Firefox)。
现在,您离解析数据又近了一步。现在是时候编写代码了。你可以使用 Python、Java 甚至 JavaScript 来给你一些例子。JavaScript 与 Node.JS 结合起来可能非常容易,因为 JS 具有我们需要的内置方法。
您可能需要搜索引擎来查找产品的详细信息页面。Google 可以列出所有结果,例如site:thomann.de/gb。但是当然,谷歌并没有提供一种简单的方法 (API) 来获取这些信息,如果你开始为此编写自己的解析器,我不确定法律后果。法律方面也需要针对您的主要意图进行处理。