我正在尝试从购物网站上抓取内容,然后将其保存在我的数据库中的产品表中。抓取此类内容需要了解每个站点的 DOM 结构。不仅是 DOM 结构,还有菜单中类别的层次结构。
有许多解决方案可以通过为每个站点设置配置来实现这一点,然后使用 regx、XPath 或 css 选择器查找包含(例如产品名称、价格、型号等)的特定 html 元素。
是否有任何解决方案可以避免每个站点的设置配置并自动抓取产品属性?
有一个类似的解决方案可以处理诸如 Readability 之类的新闻,它会查找<p>
标签和图像的序列。由于新闻站点的相似性和简单的结构,新闻更容易,