我需要从商业网站获取产品 ID。产品 ID 是 URL 末尾的数字系列。
例如:http://example.com/sp/123170/
有产品 ID 123170
。
一些要求:
- 代码必须由 Python 编写
- 由于产品数量很大,我希望软件在由于某些原因停止后能够重新启动。
- 每天可以跑一次。
- 新产品每天都会更新/添加,因此软件需要能够处理它。如果可能的话,我很想使用谷歌应用引擎
请推荐我一些想法和开源代码来完成这项工作。我找到了 scrapy.org和Beautifulsoup。还请给我关于它们的建议,哪一个更适合这个目的?