r - 以 100% 压缩率提取 Zip 文件

Question

我在尝试运行以下 R 脚本时注意到了这个问题。

library(downloader)
download('http://download.cms.gov/nppes/NPPES_Data_Dissemination_Feb_2016.zip', 
         dest = 'dataset.zip', mode = 'wb')
npi <- read.csv(unz('dataset.zip', 'npidata_20050523-20160207.csv'), 
                as.is = TRUE)

由于某种原因，脚本一直在旋转，所以我手动下载了数据，发现压缩率为 100%。

我不确定 StackOverflow 是否是这个问题的最佳交换，所以我愿意移动这个问题是否建议另一个交换。开放数据交换可能是合适的，但该站点上的活动并不多。

我的问题是：我经常使用来自医疗保险和医疗补助服务中心 (CMS) 的政府管理数据。从该站点下载的数据是 zip 文件的形式，有时它们的 zip 比率为 100%。这显然是不可能的，因为未压缩的大小约为 800PB。（CMS 在他们的网站上指出，他们估计未压缩的大小约为 4GB。）这对我的工作计算机产生了影响；我已经用同事的电脑和我自己的个人电脑复制了这个问题。

一个例子可以在这里找到。（单击链接，然后单击 NPPES 数据传播）。我注意到了其他一些例子，我已经通过电子邮件向 CMS 发送了有关此问题的电子邮件。他们回应说文件很大，无法用 Excel 处理。我知道这一点，这并不是我真正面临的问题。

有谁知道为什么会发生这种情况以及我该如何解决？

score 0 · Accepted Answer

根据 cdetermans 的观点，R 可用于执行数据解压缩和后续加载的可用系统内存是多少？查看您发布的图像和实际数据的链接（压缩后读取为 ~560mb），它在我的系统（Win 10、16 GB、Core i7、R v.3.2.3）上没有造成问题下载、解压缩、将未压缩的 CSV 读入表中。

我会建议 - 如果没有其他工作 -解耦解压缩和数据加载步骤。甚至可以调用（取决于您的操作系统）一个 R 系统命令来解压缩您的数据，手动检查，然后在数据集上单独发出分段 read.tables。

祝你好运

r - 以 100% 压缩率提取 Zip 文件

1 回答 1

Related

Reference