Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在构建一个交易聚合器,所以我需要一个爬虫来从一些网站中提取数据:价格、折扣、图像、坐标和交易名称。
你知道任何教程、电子书或对我有帮助的东西吗?对于图像和坐标以及折扣,我有一个解决方案和模式:
如何获得以下物品?
你知道任何有用的数据提取算法吗?
我建议您使用基于 XPath 的刮刀。例如网络收获
或者,如果您想分析原始文本,我建议使用状态机解析器来识别文本的模板化部分。
看这个话题:Java中是否有用于文本分析/挖掘的API?