嗨,提前感谢您帮助我解决我的问题。
是否可以编写一个脚本,在提供 craigslist 或 kiji 帖子时提取以下信息,即http://toronto.en.craigslist.ca/tor/atq/3346994296.html:
- 电子邮件地址(默认由 craigslist 提供)
- 帖子中的项目
- 海报地址
以上 1-3 是可以手动获取的信息,但希望只输入发布或广告 ID 并能够提取此信息。
嗨,提前感谢您帮助我解决我的问题。
是否可以编写一个脚本,在提供 craigslist 或 kiji 帖子时提取以下信息,即http://toronto.en.craigslist.ca/tor/atq/3346994296.html:
以上 1-3 是可以手动获取的信息,但希望只输入发布或广告 ID 并能够提取此信息。
这个问题的简短回答是......
是的,可以通过一个相对简单的脚本来自动提取从网页中列出的信息,类似于作为示例提供的信息。
一般来说,这种 [从网页中自动提取信息] 的活动被称为Web Scraping,一种特殊形式的Data Scraping。
既有可以使用的现成产品(不涉及或只涉及很少的编程;所需页面的参数化和页面内的所需字段通过配置指定。),以及可以使用的软件库与脚本语言(例如 python 或 java)相关,它们有助于解析 HTML 页面,并且更普遍地为与此活动相关的各种任务提供支持。
除了技术方面的考虑之外,您还需要维护执行这种抓取的礼仪和合法性。由于某些数据和站点可能受到明确的版权保护,因此在低流量时间执行大型抓取工作并通过限制请求以免给主机站点造成过度负担总是一个好主意。此外,许多站点可能会提供 API 或数据转储,以更简单、更可控的方式提供相同的信息。