问题标签 [readr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 你如何将多个 .txt 文件读入 R?
我正在使用 R 来可视化一些数据,所有这些数据都是 .txt 格式的。一个目录中有几百个文件,我想一次性将它们全部加载到一个表中。
有什么帮助吗?
编辑:
列出文件不是问题。但是我在从列表到内容时遇到了麻烦。我已经尝试了这里的一些代码,但是这部分有一个错误:
说
任何能澄清这个问题的代码片段都将不胜感激。
r - 读入 R 最快的文件格式是什么?
看起来最直观的是 .rdata 文件可能是 R 加载的禁食文件格式,但是在扫描一些堆栈帖子时,似乎更多的注意力集中在了提高 .csv 或其他格式的加载时间上。有确定的答案吗?
r - readr: the read_delim function throws error "embedded nul in string: '\0'"
I am using the readr
library and read_delim
function in R
. I have a big file it has null spaces, so I run the function like this:
This code throws the following error:
Error in read_tokens(ds, tokenizer, col_types, col_names, n_max = n_max, : embedded nul in string: '\0'
I tried to change "quote" parameter for quote="":
This function reads my file but the columns mismatched outputting incorrectly.
How can I correct this error?
r - 如何跳过阅读阅读器中的某些列
我有一个名为“test.csv”的简单 csv 文件,其内容如下:
假设我想跳过 colA 中的阅读,而只阅读 colB 和 colC。我想要一种通用的方法来做到这一点,因为我有很多文件要读入,有时 colA 完全被称为其他东西,但 colB 和 colC 总是相同的。
根据 read_csv 文档,实现此目的的一种方法是为 col_types 传递一个命名列表,并且只命名您要保留的列:
通过不提及 colA 它应该从输出中删除。但是,生成的数据框是:
我做错了什么还是 read_csv 文档不正确?根据帮助文件:
如果是一个列表,它必须为每一列包含一个“收集器”。如果您只想读取列的子集,则可以使用命名列表(其中名称给出列名称)。如果未按名称提及列,则不会将其包含在输出中。
r - R 阅读器单个 col_types
是否可以在readr
包内读取数据并在所有列中指定单一数据类型?类似于base::read.table
withcolClasses = "character"
或 usingas.is
参数。
除非任务、数据头、文件编码等在分析之前已经明确定义,否则我更喜欢在不更改数据类型的情况下编写加载器,然后在下游处理模式。总是对别人如何看待事物的建议持开放态度。
r - 一次读取多个列的类型
我尝试处理readr
功能。readr
我的意思是,这是来自github 网页的示例:
是否有机会在read_csv
可以一次确定col_double
多个列的函数中使用,例如grepl("Length|Witdh",col_names) = col_double()
?
谢谢,
r - 为什么 readr 将日期对象存储为整数值?
当使用包读取 csv 文件时,readr
日期对象存储为整数值。当我说存储为整数时,我并不是指日期列的类,而是指 R 存储的基础日期值。dplyr
如果一个数据框的日期存储为数值而另一个数据框的日期为整数,则这将阻止使用连接函数的能力。我在下面包含了一个可重现的示例。我能做些什么来防止这种行为吗?
从repo上的这个问题dplyr
来看, Hadley 似乎认为这是一个功能,但任何时候你的日期值存储方式不同,你都不能合并它们,而且我还没有找到将整数日期对象转换为的方法数字一。有没有办法阻止 readr 包这样做或以任何方式将存储为整数的 Date 对象转换为数值?
r - 来自 R 中的 readr 包的 read_table()
我目前正在尝试read_table()
在一些大型数据文件上使用 readr 包中的函数。我只想要第二列,所以我在函数中使用这个参数将所有其他列设置为 NULL:
编辑:上面代码中的第一对和第三对闭引号之间应该有一个下划线。
但是, read_table 似乎坚持要读取整个数据文件(并使用过多的内存并导致崩溃),而不仅仅是读取第 2 列。
使用read.table()
,我尝试了一个类似的论点:colClasses = c("NULL", "character", rep("NULL", 20000)
它可以完美地工作而不会占用过多的内存,但我想使用它,read_table
因为它应该更快。即使我包含一个只保留一列的论点,关于为什么read_table
占用这么多内存的任何想法?
r - 检查R中data.frame中列的数据类型
如何在 data.frame 中查找列的数据类型?
我正在使用下面的代码,这有意义吗?我得到正确的输出了吗?
r - readr::write_csv 和 utils::write.csv 没有写入完整的数据集
我有一个包含 127,122 行数据和 19 列的数据集。我使用读取数据readr::read_csv
并指定所有列都是字符格式。数据加载时没有任何警告调用problems(...)
以查看可能出了什么问题。dim
显示数据库的适当形状,并且所有值似乎都是正确的。但是,当我使用write.csv
or时write_csv
,结果并不如预期。当我在 Excel 中打开文件时,行数在 95,000 到 110,000 之间变化,并且列标题不包含在输出文件中。关于可能发生什么的任何想法?
以下是一些可能有用的附加信息: