1

所以,我有一个 excel 表,其中包含来自 freebase 的大约 190000 个电影名称,我想通过按标题获取 url 从维基百科获取信息,这需要很长时间,我让我的电脑运行了 8 个小时,它刚刚得到到 2%。有时我的互联网被切断了,我不得不从头开始。无论如何,我是否可以一次执行 100 条记录并一直持续到文件末尾,这样如果我的互联网中断,我可以恢复该过程。

非常感谢。

4

1 回答 1

1

大约 20 万次获取可能是您应该开始使用 Freebase 或 Wikipedia 批量转储的地方。默认的 Refine fetch rate 间隔为 5000 毫秒(即 5 秒),这比大多数 Web 服务所需的时间要长得多。您可能可以将其降低到 500 毫秒或更短。

你不需要从你的个人电脑上运行东西。您可以使用 Amazon 的 EC2 或其他具有永久连接性和设计正常运行时间的服务。

遗憾的是,Refine 的“通过获取 URL 添加列”操作目前无法重新启动,因此您需要确保可以完成它。如果您不能保证正常运行时间/连接性,您唯一的其他解决方案是 a) 以较小的块执行操作或 b) 使用不同的工具。

于 2012-08-11T04:14:51.103 回答