regex - 网站智能数据提取算法

Question

我正在构建一个交易聚合器，所以我需要一个爬虫来从一些网站中提取数据：价格、折扣、图像、坐标和交易名称。

你知道任何教程、电子书或对我有帮助的东西吗？对于图像和坐标以及折扣，我有一个解决方案和模式：

如何获得以下物品？

你知道任何有用的数据提取算法吗？

score 1 · Accepted Answer

我建议您使用基于 XPath 的刮刀。例如网络收获

或者，如果您想分析原始文本，我建议使用状态机解析器来识别文本的模板化部分。

1 回答 1