问题标签 [readr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 将 xml 对象写入磁盘
我有一大堆xml
-files,我需要处理它们。为此,我希望能够读取文件,并将生成的对象列表保存到磁盘。我尝试用 保存列表readr::write_rds
,但再次读入后,该对象有所修改,不再有效。我能做些什么来缓解这个问题吗?
一些上下文
我有大约 500,000 个 xml 文件。为了处理它们,我计划将它们变成一个列表,xml2::as_list
并编写代码来提取我需要的内容。后来我意识到,as_list
运行起来非常昂贵。我可以:
- 重新编写已经仔细调试过的代码以直接解析数据(
xml_child
,xml_text
, ...),或者 - 使用
as_list
.
为了加快没有。2 我可以在具有更多内核的另一台机器上运行它,但我想将单个文件传递给该机器,因为收集和复制所有文件非常耗时。
r - R在readr或data.table中使用带有双反斜杠的逗号导入大型csv
我在将大型 csv 文件(17m 行)导入 R 时遇到问题。我尝试使用两者readr::read_csv
,data.table::fread
但两者都在创建额外的列。这是因为其中一列有一些包含逗号的文本。当我用 阅读文件时readLines
,我可以看到文本中的逗号前面有一个双反斜杠,因此它们应该被忽略,但是我无法让任何一个包忽略它们......有什么建议吗?一个例子是:
r - 如何跳过第二行是 csv 文件,同时使用 read_csv 将第一行保持为列名?
Qualtrics 生成 csv 文件,第一行包含变量名称,第二行包含变量标签。我想使用 read_csv() 读取我的数据,同时将第一行作为列名读取,然后跳过下一行变量标签。以下是我失败的尝试。
r - 使用 readr、write_csv 时出错
首先,
我无法使用 write_csv() 函数。我收到以下错误
function_list[k] 中的错误:找不到函数“write_csv”
我已经安装了 readr pacakge,它给出了以下警告:
获取错误(信息 [i,1],envir = env):无法打开文件'C:/Users/kishore/Documents/R/win-library/3.3/rlang/R/rlang.rdb':没有这样的文件或目录另外:警告消息:包'readr'是在R版本3.3.3下构建的错误:'readr'的包或命名空间加载失败</p>
第二,
当我尝试读取 .csv 或 excel 文件时,出现以下错误
获取错误(信息 [i,1],envir = env):无法打开文件'C:/Users/kishore/Documents/R/win-library/3.3/rlang/R/rlang.rdb':没有这样的文件或目录
视图中的错误:找不到对象“c”
我不确定是什么问题请指教
r - 使用 R 自动下载 csv
英国慈善委员会有一个网站,您可以从中下载特定类别的慈善数据,例如痴呆症 http://beta.charitycommission.gov.uk/charity-search/?q=dementia
将鼠标悬停在导出按钮上时,链接 URL 显示在底部,其中包含搜索项目和慈善机构数量
下载的实际文件名为“charitydetails_2017_06_14_23_57_17.csv”,因此没有提及类别/编号,而是带有日期戳
我努力了
但只是得到404错误
无论如何,R 中是否有我可以自动执行此操作的方法,以便输入不同的术语,例如盲目输入,比如说,一个闪亮的应用程序会将正确的数据集下载到 R 中进行处理?
TIA
r - R:read_csv 错误,“sysdata.rdb”:没有这样的文件或目录
我正在尝试使用 tidyverse 包中的 R 中的 read_csv ,但我总是收到以下消息:
该文件和目录确实存在:
我有最新版本的 R 和 tidyverse:
你有什么建议吗?
r - Select a subsample of columns when reading a file in the tidyverse
I would like to read a csv file selecting only a subsetting of the available columns. Usually I used to perfom this kind of process using the fread
function of the data.table
package. I could use read_csv
and then select only the columns of interest but I want to do the selection when I read the file.
Is that possible? Have I missed some read_csv
options?
r - 如何使用 readr 读取中午到下午 1 点之间的时间
我正在尝试使用
googlesheets
库在谷歌电子表格中解析一些时间,该库调用readr
.
我几乎可以毫无问题地解析一天中的任何时间。例如,这可以正常工作:
但是,对于下午 12:00 到 12:59 之间的时间,我会收到解析失败警告和 NA 结果。例如,阅读时间为 12:14 PM 的内容会导致:
如何格式化时间或格式字符串以读取 12:00 到 12:59 PM 之间的时间?
r - 如何在r中循环将列标题分配给数据帧?
1) 我在目录“C:/Users/Me/Desktop/JUNETEST/”中有 48 个 tar.gz 文件。这些文件都具有相同的格式,除了代表每个文件一天中的小时的数字(即 voa_20170601-110000.tar.gz 而不是 voa_20170601-120000.tar.gz。 我需要导入所有 48 个文件并解压文件并仅提取每个“.tar.gz”中具有相同名称的数据文件。名称为“hit_data.tsv”。我想将每个“hit_data.tsv”分配为列表中的一个元素数据帧。我的代码似乎正确解压了所有 48 个文件。
但是,问题在于读取 hit_data.tsv 文件。它尝试读取每一列,但由于没有列标题而出现问题,因此它只读取第一列。如果单独拉取每个文件,我会为colnames(hit_data.tsv)分配一个名为 Headers 的向量的值。每个文件都具有相同的列名,因此 Header 向量可以应用于每个 hit_data.tsv。我的问题是,如何在循环期间为每个文件分配列名?或者如何更正我的代码以读取“hit_data.tsv”文件的所有列?
当前状态下的代码如下:
r - 在 R 中,read_csv() 解析失败:将整数转换为 NA
当我使用 read_csv() 和 read.csv() 将 CSV 文件导入 R 时,我遇到了一个问题。我的文件包含 170 万行和 78 个变量。这些变量中的大多数都是整数。当我使用 read_csv() 时,一些整数单元格被转换为 NA,我收到以下警告。但是,这些单元格也是整数,所以我不知道为什么会出错。
当我访问 df[3507,27] 时,它只显示 NA。此外,X27、X46 和 X8 都是整数,所以我不明白为什么该函数适用于大多数行但不适用于这几行。
但是,当我使用 read.csv() 时。它工作并返回 2946793000。有人能告诉我为什么这两个函数在这里表现不同吗?