问题标签 [readr]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

446 问题

0 投票

1 回答

579 浏览

r - 来自 readr read_csv 输出的 S4 类

我想创建一个 S4 类，它代表来自read_csv函数调用（readr包）的数据

我尝试了以下基本课程设置

引发错误

我意识到由创建的对象read_csv不是 S4 类，并且具有三个对象data.frame tbl_df，tbl其中tbl_df是用于打印的函数对象，并且tbl是帮助中描述的通用方法。

那么如何将类定义RandomSample为代表read_csv输出对象的 S4 类呢？

r s4 readr

2017-01-03T16:50:02.883

0 投票

4 回答

212 浏览

r - 读取糟糕的 CSV 文件结构

我正在尝试读取一个大型 csv 数据文件（由 , 分隔），并且我一直卡在如下行：指向原始文件的链接：“ http://daniels-pull.universityofdenv.netdna-cdn.com /assets/GeneralOccurrencesAll.csv "

如您所见，该列中也使用了文件的分隔符。有没有办法将列的分隔符指定为要在文件中读取的正则表达式，还是我需要研究使用 read.fwf 来查找每个字段的最大长度，并使用它解析数据？目前，这是我到目前为止提出的代码：

我应该使用 read.fwf，还是尝试手动拉出问题列？任何帮助，将不胜感激。

编辑：

对于加分点，我真的很想构建一个函数来检测 csv 文件中的坏列，或者看起来可能会弄乱文件结构的数据，例如这种情况。这样，我就不必乱用文本编辑器，并且可以以编程方式在文件中找到这些错误。关于如何构建这样的东西的想法？

r csv pandas readr

2017-01-09T02:54:02.370

0 投票

1 回答

204 浏览

r - 绑定csv文件时导入大数

在尝试使用超过最大整数 (.Machine$integer.max = 2147483647) 的列导入数据时遇到问题。使用 readr 的 read_csv 我相信它是作为 NA 导入的，而不是四舍五入。复杂性来自尝试使用 rbindlist 导入多个 csv。

这是我当前的设置：

如何编写最后一行以导入 csvs 并将列“数量”转换为字符而不是整数？

这是我尝试过的一些事情，但没有运气...

tl;dr - 需要帮助导入 csvs 列表，同时将特定列更改为字符格式或 int64。

谢谢你。

r readr

2017-01-12T08:42:48.237

0 投票

0 回答

309 浏览

r - 来自 readr 包的 read_lines_chunked 给出了奇怪的输出

我想使用这个readr包来读取大的 fasta 文件并计算条目。该文件有多行，每个条目以>. 一般来说，我对其他数据不感兴趣，我只想计算以 . 开头的行>。

我认为最有效的方法是使用read_lines_chunkedfrom readrpackage，但结果有点奇怪。

结果不是我预期的带有线条的单个向量，而是一个矩阵，甚至有奇怪的结果，因为它例如列出了>k两次：

有人可以帮助我或建议一种更好的方法来计算以大文件开头的行>而不将所有内容加载到内存中......

r fasta readr

2017-01-20T10:42:55.770

0 投票

1 回答

204 浏览

r - 带有data.frame而不是tibble的readr（或tidyverse的其他包）

是否可以指定read_csv从readr包中返回 data.frame 而不是 tibble？我可能忽略了它，但我在包装手册中找不到这样的选项。

我的问题是我的一些来自 pre-tibble 时代的代码不再运行，因为列的命名已关闭。我可以使用将小标题转换为数据框as.data.frame，但是与我最初创建数据框时（输出注释掉）相比，列的命名仍然会有所不同：

我可以（并且将在未来的项目中）使用这个checkpoint包来使用我最初运行这些项目时的包版本。但是，现在我正在寻找一个选项，我可以在其中指定是获得小标题还是数据框。

这个问题也适用于 tidyverse 中的其他包（例如，dplyr）。

r dplyr tidyverse readr

2017-01-26T15:57:56.983

0 投票

1 回答

76 浏览

r - 整理“并排”数据集

我正在使用如下所示的广泛数据集：

我想制作以下内容：

请注意，初始数据集中的月份并没有跨观察排列。“整理”这个的最好方法是什么？我应该一次将基础数据读入 R 两列和 bind_rows 吗？如果是这样，最优雅的方法是什么？

r dplyr tidyr readr

2017-02-09T07:00:06.047

0 投票

1 回答

774 浏览

r - read_delim 似乎无法解析带引号的文件？

我有以下制表符分隔的文件，read_delim由于引号而似乎失败。

（保存标签的粘贴链接：http: //pastebin.com/ZKkAZ9Fr）

这尤其令人费解，因为read_delim，read_tsv已经指定quote = "\t"。它无法解析什么？

r readr

2017-02-13T01:12:50.977

0 投票

2 回答

5254 浏览

r - 将命名列表传递给 cols_only()

当我尝试做这样的事情时：

所以问题是是否可以将命名列表传递给cols_only()

r readr

2017-02-18T17:34:44.537

0 投票

1 回答

666 浏览

r - 以句点作为分隔符读取日期

使用 readr 在 R 中读取欧洲日期格式 date.month.year 时遇到问题，其中日期和月份没有前导零。例如

文件：

尝试过（除其他外）：

结果 date_of_birth : num 122016

任何帮助，将不胜感激

r readr

2017-02-21T14:45:25.167

0 投票

0 回答

160 浏览

r - R阅读器：将参数从列表中传递给cols（）？

cols()当我的输入来自列表时，如何提供 ... 参数？

上下文：我想指示要读取的数据的列类型readr::readr，指定cols参数。这会像cols(Sepal.Length=col_number(), Sepal.Width=col_number())。但是，这些列类型是从列表中检索的，我看不到如何将该列表输入到cols()函数中？

r tidyverse readr

2017-03-05T04:51:21.393

1 2 3 4 5 6 7 8 9 10

问题标签 [readr]

Reference