问题标签 [readr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
67030 浏览

r - 你如何将多个 .txt 文件读入 R?

我正在使用 R 来可视化一些数据,所有这些数据都是 .txt 格式的。一个目录中有几百个文件,我想一次性将它们全部加载到一个表中。

有什么帮助吗?

编辑:

列出文件不是问题。但是我在从列表到内容时遇到了麻烦。我已经尝试了这里的一些代码,但是这部分有一个错误:

任何能澄清这个问题的代码片段都将不胜感激。

0 投票
1 回答
1389 浏览

r - 读入 R 最快的文件格式是什么?

看起来最直观的是 .rdata 文件可能是 R 加载的禁食文件格式,但是在扫描一些堆栈帖子时,似乎更多的注意力集中在了提高 .csv 或其他格式的加载时间上。有确定的答案吗?

0 投票
0 回答
1956 浏览

r - readr: the read_delim function throws error "embedded nul in string: '\0'"

I am using the readr library and read_delim function in R. I have a big file it has null spaces, so I run the function like this:

This code throws the following error:

Error in read_tokens(ds, tokenizer, col_types, col_names, n_max = n_max, : embedded nul in string: '\0'

I tried to change "quote" parameter for quote="":

This function reads my file but the columns mismatched outputting incorrectly.

How can I correct this error?

0 投票
2 回答
23407 浏览

r - 如何跳过阅读阅读器中的某些列

我有一个名为“test.csv”的简单 csv 文件,其内容如下:

假设我想跳过 colA 中的阅读,而只阅读 colB 和 colC。我想要一种通用的方法来做到这一点,因为我有很多文件要读入,有时 colA 完全被称为其他东西,但 colB 和 colC 总是相同的。

根据 read_csv 文档,实现此目的的一种方法是为 col_types 传递一个命名列表,并且只命名您要保留的列:

通过不提及 colA 它应该从输出中删除。但是,生成的数据框是:

我做错了什么还是 read_csv 文档不正确?根据帮助文件:

如果是一个列表,它必须为每一列包含一个“收集器”。如果您只想读取列的子集,则可以使用命名列表(其中名称给出列名称)。如果未按名称提及列,则不会将其包含在输出中。

0 投票
2 回答
1750 浏览

r - R 阅读器单个 col_types

是否可以在readr包内读取数据并在所有列中指定单一数据类型?类似于base::read.tablewithcolClasses = "character"或 usingas.is参数。

除非任务、数据头、文件编码等在分析之前已经明确定义,否则我更喜欢在不更改数据类型的情况下编写加载器,然后在下游处理模式。总是对别人如何看待事物的建议持开放态度。

0 投票
0 回答
358 浏览

r - 一次读取多个列的类型

我尝试处理readr功能。readr我的意思是,这是来自github 网页的示例:

是否有机会在read_csv可以一次确定col_double多个列的函数中使用,例如grepl("Length|Witdh",col_names) = col_double()

谢谢,

0 投票
1 回答
255 浏览

r - 为什么 readr 将日期对象存储为整数值?

当使用包读取 csv 文件时,readr日期对象存储为整数值。当我说存储为整数时,我并不是指日期列的类,而是指 R 存储的基础日期值。dplyr如果一个数据框的日期存储为数值而另一个数据框的日期为整数,则这将阻止使用连接函数的能力。我在下面包含了一个可重现的示例。我能做些什么来防止这种行为吗?

从repo上的这个问题dplyr来看, Hadley 似乎认为这是一个功能,但任何时候你的日期值存储方式不同,你都不能合并它们,而且我还没有找到将整数日期对象转换为的方法数字一。有没有办法阻止 readr 包这样做或以任何方式将存储为整数的 Date 对象转换为数值?

0 投票
1 回答
1188 浏览

r - 来自 R 中的 readr 包的 read_table()

我目前正在尝试read_table()在一些大型数据文件上使用 readr 包中的函数。我只想要第二列,所以我在函数中使用这个参数将所有其他列设置为 NULL:

编辑:上面代码中的第一对和第三对闭引号之间应该有一个下划线。

但是, read_table 似乎坚持要读取整个数据文件(并使用过多的内存并导致崩溃),而不仅仅是读取第 2 列。

使用read.table(),我尝试了一个类似的论点:colClasses = c("NULL", "character", rep("NULL", 20000)它可以完美地工作而不会占用过多的内存,但我想使用它,read_table因为它应该更快。即使我包含一个只保留一列的论点,关于为什么read_table占用这么多内存的任何想法?

0 投票
1 回答
5031 浏览

r - 检查R中data.frame中列的数据类型

如何在 data.frame 中查找列的数据类型?

我正在使用下面的代码,这有意义吗?我得到正确的输出了吗?

0 投票
0 回答
869 浏览

r - readr::write_csv 和 utils::write.csv 没有写入完整的数据集

我有一个包含 127,122 行数据和 19 列的数据集。我使用读取数据readr::read_csv并指定所有列都是字符格式。数据加载时没有任何警告调用problems(...)以查看可能出了什么问题。dim显示数据库的适当形状,并且所有值似乎都是正确的。但是,当我使用write.csvor时write_csv,结果并不如预期。当我在 Excel 中打开文件时,行数在 95,000 到 110,000 之间变化,并且列标题不包含在输出文件中。关于可能发生什么的任何想法?

以下是一些可能有用的附加信息: