问题标签 [readr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
579 浏览

r - 来自 readr read_csv 输出的 S4 类

我想创建一个 S4 类,它代表来自read_csv函数调用(readr包)的数据

我尝试了以下基本课程设置

引发错误

我意识到由创建的对象read_csv不是 S4 类,并且具有三个对象data.frame tbl_dftbl其中tbl_df是用于打印的函数对象,并且tbl是帮助中描述的通用方法。

那么如何将类定义RandomSample为代表read_csv输出对象的 S4 类呢?

0 投票
4 回答
212 浏览

r - 读取糟糕的 CSV 文件结构

我正在尝试读取一个大型 csv 数据文件(由 , 分隔),并且我一直卡在如下行:指向原始文件的链接:“ http://daniels-pull.universityofdenv.netdna-cdn.com /assets/GeneralOccurrencesAll.csv "

如您所见,该列中也使用了文件的分隔符。有没有办法将列的分隔符指定为要在文件中读取的正则表达式,还是我需要研究使用 read.fwf 来查找每个字段的最大长度,并使用它解析数据?目前,这是我到目前为止提出的代码:

我应该使用 read.fwf,还是尝试手动拉出问题列?任何帮助,将不胜感激。

编辑:

对于加分点,我真的很想构建一个函数来检测 csv 文件中的坏列,或者看起来可能会弄乱文件结构的数据,例如这种情况。这样,我就不必乱用文本编辑器,并且可以以编程方式在文件中找到这些错误。关于如何构建这样的东西的想法?

0 投票
1 回答
204 浏览

r - 绑定csv文件时导入大数

在尝试使用超过最大整数 (.Machine$integer.max = 2147483647) 的列导入数据时遇到问题。使用 readr 的 read_csv 我相信它是作为 NA 导入的,而不是四舍五入。复杂性来自尝试使用 rbindlist 导入多个 csv。

这是我当前的设置:

如何编写最后一行以导入 csvs 并将列“数量”转换为字符而不是整数?

这是我尝试过的一些事情,但没有运气...

tl;dr - 需要帮助导入 csvs 列表,同时将特定列更改为字符格式或 int64。

谢谢你。

0 投票
0 回答
309 浏览

r - 来自 readr 包的 read_lines_chunked 给出了奇怪的输出

我想使用这个readr包来读取大的 fasta 文件并计算条目。该文件有多行,每个条目以>. 一般来说,我对其他数据不感兴趣,我只想计算以 . 开头的行>

我认为最有效的方法是使用read_lines_chunkedfrom readrpackage,但结果有点奇怪。

结果不是我预期的带有线条的单个向量,而是一个矩阵,甚至有奇怪的结果,因为它例如列出了>k两次:

有人可以帮助我或建议一种更好的方法来计算以大文件开头的行>而不将所有内容加载到内存中......

0 投票
1 回答
204 浏览

r - 带有data.frame而不是tibble的readr(或tidyverse的其他包)

是否可以指定read_csvreadr包中返回 data.frame 而不是 tibble?我可能忽略了它,但我在包装手册中找不到这样的选项。

我的问题是我的一些来自 pre-tibble 时代的代码不再运行,因为列的命名已关闭。我可以使用 将小标题转换为数据框as.data.frame,但是与我最初创建数据框时(输出注释掉)相比,列的命名仍然会有所不同:

我可以(并且将在未来的项目中)使用这个checkpoint包来使用我最初运行这些项目时的包版本。但是,现在我正在寻找一个选项,我可以在其中指定是获得小标题还是数据框。

这个问题也适用于 tidyverse 中的其他包(例如,dplyr)。

0 投票
1 回答
76 浏览

r - 整理“并排”数据集

我正在使用如下所示的广泛数据集:

我想制作以下内容:

请注意,初始数据集中的月份并没有跨观察排列。“整理”这个的最好方法是什么?我应该一次将基础数据读入 R 两列和 bind_rows 吗?如果是这样,最优雅的方法是什么?

0 投票
1 回答
774 浏览

r - read_delim 似乎无法解析带引号的文件?

我有以下制表符分隔的文件,read_delim由于引号而似乎失败。

(保存标签的粘贴链接:http: //pastebin.com/ZKkAZ9Fr

这尤其令人费解,因为read_delimread_tsv已经指定quote = "\t"。它无法解析什么?

0 投票
2 回答
5254 浏览

r - 将命名列表传递给 cols_only()

当我尝试做这样的事情时:

所以问题是是否可以将命名列表传递给cols_only()

0 投票
1 回答
666 浏览

r - 以句点作为分隔符读取日期

使用 readr 在 R 中读取欧洲日期格式 date.month.year 时遇到问题,其中日期和月份没有前导零。例如

文件:

尝试过(除其他外):

结果 date_of_birth : num 122016

任何帮助,将不胜感激

0 投票
0 回答
160 浏览

r - R阅读器:将参数从列表中传递给cols()?

cols()当我的输入来自列表时,如何提供 ... 参数?

上下文:我想指示要读取的数据的列类型readr::readr,指定cols参数。这会像cols(Sepal.Length=col_number(), Sepal.Width=col_number())。但是,这些列类型是从列表中检索的,我看不到如何将该列表输入到cols()函数中?