0

我在尝试运行以下 R 脚本时注意到了这个问题。

library(downloader)
download('http://download.cms.gov/nppes/NPPES_Data_Dissemination_Feb_2016.zip', 
         dest = 'dataset.zip', mode = 'wb')
npi <- read.csv(unz('dataset.zip', 'npidata_20050523-20160207.csv'), 
                as.is = TRUE)

由于某种原因,脚本一直在旋转,所以我手动下载了数据,发现压缩率为 100%。

在此处输入图像描述

我不确定 StackOverflow 是否是这个问题的最佳交换,所以我愿意移动这个问题是否建议另一个交换。开放数据交换可能是合适的,但该站点上的活动并不多。

我的问题是:我经常使用来自医疗保险和医疗补助服务中心 (CMS) 的政府管理数据。从该站点下载的数据是 zip 文件的形式,有时它们的 zip 比率为 100%。这显然是不可能的,因为未压缩的大小约为 800PB。(CMS 在他们的网站上指出,他们估计未压缩的大小约为 4GB。)这对我的工作计算机产生了影响;我已经用同事的电脑和我自己的个人电脑复制了这个问题。

一个例子可以在这里找到。(单击链接,然后单击 NPPES 数据传播)。我注意到了其他一些例子,我已经通过电子邮件向 CMS 发送了有关此问题的电子邮件。他们回应说文件很大,无法用 Excel 处理。我知道这一点,这并不是我真正面临的问题。

有谁知道为什么会发生这种情况以及我该如何解决?

4

1 回答 1

0

根据 cdetermans 的观点,R 可用于执行数据解压缩和后续加载的可用系统内存是多少?查看您发布的图像和实际数据的链接(压缩后读取为 ~560mb),它在我的系统(Win 10、16 GB、Core i7、R v.3.2.3)上没有造成问题下载、解压缩、将未压缩的 CSV 读入表中。

我会建议 - 如果没有其他工作 -解耦解压缩和数据加载步骤。甚至可以调用(取决于您的操作系统)一个 R 系统命令来解压缩您的数据,手动检查,然后在数据集上单独发出分段 read.tables。

祝你好运

于 2016-03-08T15:11:07.593 回答