我在尝试运行以下 R 脚本时注意到了这个问题。
library(downloader)
download('http://download.cms.gov/nppes/NPPES_Data_Dissemination_Feb_2016.zip',
dest = 'dataset.zip', mode = 'wb')
npi <- read.csv(unz('dataset.zip', 'npidata_20050523-20160207.csv'),
as.is = TRUE)
由于某种原因,脚本一直在旋转,所以我手动下载了数据,发现压缩率为 100%。
我不确定 StackOverflow 是否是这个问题的最佳交换,所以我愿意移动这个问题是否建议另一个交换。开放数据交换可能是合适的,但该站点上的活动并不多。
我的问题是:我经常使用来自医疗保险和医疗补助服务中心 (CMS) 的政府管理数据。从该站点下载的数据是 zip 文件的形式,有时它们的 zip 比率为 100%。这显然是不可能的,因为未压缩的大小约为 800PB。(CMS 在他们的网站上指出,他们估计未压缩的大小约为 4GB。)这对我的工作计算机产生了影响;我已经用同事的电脑和我自己的个人电脑复制了这个问题。
一个例子可以在这里找到。(单击链接,然后单击 NPPES 数据传播)。我注意到了其他一些例子,我已经通过电子邮件向 CMS 发送了有关此问题的电子邮件。他们回应说文件很大,无法用 Excel 处理。我知道这一点,这并不是我真正面临的问题。
有谁知道为什么会发生这种情况以及我该如何解决?