0

如何从 Socrata API 获取随机数据样本?即,我正在尝试获取https://health.data.ny.gov/resource/s8d9-z734.json,但暂时不喜欢完整下载它,因为它非常大。

4

2 回答 2

2

出于性能和缓存的原因(想象一下一堆客户端反复调用的影响$order=rand()......),我们没有任何类型的rand()或采样功能,但您可以通过一些工作创建自己的示例集:

  1. 执行$select=count(*)查询以确定集合的大小
  2. 在本地使用rand()来提出一些偏移量
  3. 使用$limit$offset与马厩$order一起挑选个人记录。前任:$order=facility_id&$limit=1&$offset=<some rand() number>

不幸的是,要获得 1000 个样本大小,这将需要对 API 进行 1001 次调用。确保您注册了应用令牌...

于 2016-07-25T18:19:48.143 回答
0

寻找可以被视为随机种子的字段,例如按字母顺序排序 total_charges(即 https://health.data.ny.gov/resource/s8d9-z734.json的随机抽样?$limit=1000&$order=total_charges& $offset=10000) 但事实证明,Socrata 知道这是一个数字字段,尽管它在 JSON 中作为字符串返回并按数字排序。更聪明的想法,有人吗?随机抽样是开放数据中的一个重要问题:-)

于 2016-07-25T13:12:10.440 回答