问题标签 [readr]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

446 问题

0 投票

1 回答

681 浏览

r - 将 xml 对象写入磁盘

我有一大堆xml-files，我需要处理它们。为此，我希望能够读取文件，并将生成的对象列表保存到磁盘。我尝试用保存列表readr::write_rds，但再次读入后，该对象有所修改，不再有效。我能做些什么来缓解这个问题吗？

一些上下文

我有大约 500,000 个 xml 文件。为了处理它们，我计划将它们变成一个列表，xml2::as_list并编写代码来提取我需要的内容。后来我意识到，as_list运行起来非常昂贵。我可以：

重新编写已经仔细调试过的代码以直接解析数据（xml_child, xml_text, ...），或者
使用as_list.

为了加快没有。2 我可以在具有更多内核的另一台机器上运行它，但我想将单个文件传递给该机器，因为收集和复制所有文件非常耗时。

r xml readr

2017-05-19T12:48:59.067

0 投票

1 回答

373 浏览

r - R在readr或data.table中使用带有双反斜杠的逗号导入大型csv

我在将大型 csv 文件（17m 行）导入 R 时遇到问题。我尝试使用两者readr::read_csv，data.table::fread但两者都在创建额外的列。这是因为其中一列有一些包含逗号的文本。当我用阅读文件时readLines，我可以看到文本中的逗号前面有一个双反斜杠，因此它们应该被忽略，但是我无法让任何一个包忽略它们......有什么建议吗？一个例子是：

r regex csv data.table readr

2017-05-22T14:20:01.130

0 投票

2 回答

2889 浏览

r - 如何跳过第二行是 csv 文件，同时使用 read_csv 将第一行保持为列名？

Qualtrics 生成 csv 文件，第一行包含变量名称，第二行包含变量标签。我想使用 read_csv() 读取我的数据，同时将第一行作为列名读取，然后跳过下一行变量标签。以下是我失败的尝试。

r csv qualtrics readr

2017-05-30T23:04:38.963

0 投票

1 回答

2783 浏览

r - 使用 readr、write_csv 时出错

首先，

我无法使用 write_csv() 函数。我收到以下错误

function_list[k] 中的错误：找不到函数“write_csv”

我已经安装了 readr pacakge，它给出了以下警告：

获取错误（信息 [i，1]，envir = env）：无法打开文件'C：/Users/kishore/Documents/R/win-library/3.3/rlang/R/rlang.rdb'：没有这样的文件或目录另外：警告消息：包'readr'是在R版本3.3.3下构建的错误：'readr'的包或命名空间加载失败</p>

第二，

当我尝试读取 .csv 或 excel 文件时，出现以下错误

获取错误（信息 [i，1]，envir = env）：无法打开文件'C：/Users/kishore/Documents/R/win-library/3.3/rlang/R/rlang.rdb'：没有这样的文件或目录

视图中的错误：找不到对象“c”

我不确定是什么问题请指教

r readr

2017-05-31T13:09:13.343

0 投票

1 回答

67 浏览

r - 使用 R 自动下载 csv

英国慈善委员会有一个网站，您可以从中下载特定类别的慈善数据，例如痴呆症 http://beta.charitycommission.gov.uk/charity-search/?q=dementia

将鼠标悬停在导出按钮上时，链接 URL 显示在底部，其中包含搜索项目和慈善机构数量

下载的实际文件名为“charitydetails_2017_06_14_23_57_17.csv”，因此没有提及类别/编号，而是带有日期戳

我努力了

但只是得到404错误

无论如何，R 中是否有我可以自动执行此操作的方法，以便输入不同的术语，例如盲目输入，比如说，一个闪亮的应用程序会将正确的数据集下载到 R 中进行处理？

TIA

r csv web-scraping readr

2017-06-14T23:26:39.043

0 投票

2 回答

2245 浏览

r - R：read_csv 错误，“sysdata.rdb”：没有这样的文件或目录

我正在尝试使用 tidyverse 包中的 R 中的 read_csv ，但我总是收到以下消息：

该文件和目录确实存在：

我有最新版本的 R 和 tidyverse：

你有什么建议吗？

r tidyverse readr

2017-06-15T12:17:36.830

0 投票

1 回答

2237 浏览

r - Select a subsample of columns when reading a file in the tidyverse

I would like to read a csv file selecting only a subsetting of the available columns. Usually I used to perfom this kind of process using the fread function of the data.table package. I could use read_csv and then select only the columns of interest but I want to do the selection when I read the file.

Is that possible? Have I missed some read_csv options?

r tidyverse readr

2017-06-16T09:05:17.443

0 投票

1 回答

41 浏览

r - 如何使用 readr 读取中午到下午 1 点之间的时间

我正在尝试使用googlesheets库在谷歌电子表格中解析一些时间，该库调用readr.

我几乎可以毫无问题地解析一天中的任何时间。例如，这可以正常工作：

但是，对于下午 12:00 到 12:59 之间的时间，我会收到解析失败警告和 NA 结果。例如，阅读时间为 12:14 PM 的内容会导致：

如何格式化时间或格式字符串以读取 12:00 到 12:59 PM 之间的时间？

r date readr

2017-06-28T00:55:01.200

0 投票

1 回答

422 浏览

r - 如何在r中循环将列标题分配给数据帧？

1) 我在目录“C:/Users/Me/Desktop/JUNETEST/”中有 48 个 tar.gz 文件。这些文件都具有相同的格式，除了代表每个文件一天中的小时的数字（即 voa_20170601-110000.tar.gz 而不是 voa_20170601-120000.tar.gz。 我需要导入所有 48 个文件并解压文件并仅提取每个“.tar.gz”中具有相同名称的数据文件。名称为“hit_data.tsv”。我想将每个“hit_data.tsv”分配为列表中的一个元素数据帧。我的代码似乎正确解压了所有 48 个文件。

但是，问题在于读取 hit_data.tsv 文件。它尝试读取每一列，但由于没有列标题而出现问题，因此它只读取第一列。如果单独拉取每个文件，我会为colnames(hit_data.tsv)分配一个名为 Headers 的向量的值。每个文件都具有相同的列名，因此 Header 向量可以应用于每个 hit_data.tsv。我的问题是，如何在循环期间为每个文件分配列名？或者如何更正我的代码以读取“hit_data.tsv”文件的所有列？

当前状态下的代码如下：

r for-loop tar do.call readr

2017-07-11T02:36:39.673

0 投票

3 回答

13216 浏览

r - 在 R 中，read_csv() 解析失败：将整数转换为 NA

当我使用 read_csv() 和 read.csv() 将 CSV 文件导入 R 时，我遇到了一个问题。我的文件包含 170 万行和 78 个变量。这些变量中的大多数都是整数。当我使用 read_csv() 时，一些整数单元格被转换为 NA，我收到以下警告。但是，这些单元格也是整数，所以我不知道为什么会出错。

当我访问 df[3507,27] 时，它只显示 NA。此外，X27、X46 和 X8 都是整数，所以我不明白为什么该函数适用于大多数行但不适用于这几行。

但是，当我使用 read.csv() 时。它工作并返回 2946793000。有人能告诉我为什么这两个函数在这里表现不同吗？

r csv read.csv readr

2017-07-14T18:47:36.023

1 2 3 4 5 6 7 8 9 10

问题标签 [readr]

一些上下文

当前状态下的代码如下：

Reference