0

我正在构建一个交易聚合器,所以我需要一个爬虫来从一些网站中提取数据:价格、折扣、图像、坐标和交易名称。

你知道任何教程、电子书或对我有帮助的东西吗?对于图像和坐标以及折扣,我有一个解决方案和模式:

  • 形象:最大的形象永远是交易的主要形象
  • 折扣:折扣始终是 50 到 99 之间的数字,并且始终带有“%”符号
  • 坐标:总是十进制数字,所以我用正则表达式得到它

如何获得以下物品?

  • 交易名称?
  • 价格?

你知道任何有用的数据提取算法吗?

4

1 回答 1

1

我建议您使用基于 XPath 的刮刀。例如网络收获

或者,如果您想分析原始文本,我建议使用状态机解析器来识别文本的模板化部分。

看这个话题:Java中是否有用于文本分析/挖掘的API?

于 2012-06-14T08:44:47.607 回答