0

我正在使用 ScraperWiki 从 london-gazette.co.uk 站点中提取链接。我将如何编辑代码,以便可以在底部粘贴多个单独的搜索 URL,这些 URL 都被整理到同一个数据存储中?

目前我可以粘贴新的 URL,点击运行,新数据会添加到旧数据的后面,但我想知道是否有一种方法可以加快速度并让刮板在几个网址一次?我将更改 URL 的“通知代码”部分:issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1

抱歉 - Stack Overflow 的新手,我的编码知识几乎不存在,但代码在这里:https ://scraperwiki.com/scrapers/links_1/edit/

4

1 回答 1

0

您链接到的刮板似乎是空的,但我查看了 Rebecca Ratcliffe 的原始刮板。如果您的相同,您只需将您的 URL 放入一个列表并使用 for 循环遍历它们:

urls = ['/issues/2013-01-15;2013-01-15/all=NoticeCode%3a2441/start=1', 
'/issues /2013-01-15;2013-01-15/all=NoticeCode%3a2453/start=1',
'/issues/2013-01-15;2013-01-15/all=NoticeCode%3a2462/start=1', 
'/issues/2012-02-10;2013-02-20/all=NoticeCode%3a2441/start=1']

base_url = 'http://www.london-gazette.co.uk'
for u in urls:
    starting_url = urlparse.urljoin(base_url, u)
    scrape_and_look_for_next_link(starting_url)

看看我复制并相应调整的这个刮板

于 2013-04-17T11:45:32.200 回答