2

我有一个包含 36k 行数据的谷歌优化项目。我想添加另一列,从 freebase url 获取 json 数据。我能够让它在一个小数据集上工作,但是当我在这个项目上运行它时,需要几个小时来处理,然后大部分结果都是空白的。不过,我确实得到了一些数据结果。有没有办法限制将获取数据的行数,或者有更好的方法从 url 获取数据。

谢谢你!

4

1 回答 1

2

如果您从 Freebase 添加数据,您最好使用“从 Freebase 添加列”而不是“通过获取 URL 添加列”。

Facets 是 Google Refine 最强大的功能之一,它们可用于控制各种事物。在这种情况下,您可以使用构面来选择数据的子集,并仅对该子集进行提取(然后使用不同的子集重复)。

下一个版本的 Refine 将包含更好的 URL 获取结果错误报告,以帮助调试此类问题,但请确保您尊重远程站点的所有限制,例如请求总数、每秒请求数、等等

于 2012-03-06T22:32:14.160 回答