问题标签 [read.table]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - read.table 和带有多余逗号的文件
我正在尝试使用该read.table
命令将 CSV 文件导入 R。我不断收到错误消息“列多于列名”,即使我已将 strip.white 设置为 TRUE。制作 csv 文件的程序在每一行的末尾添加了大量的逗号字符,我认为这是额外列的来源。
当 R 将其读入 R 控制台时,如何让 R 从标题行和 CSV 文件的其余部分中去除无关的逗号列?
此外,csv 文件中的许多单元格不包含任何数据。是否可以让 R 用“NA”填充这些空单元格?
csv 文件的前两行:
r - read.table 在标题 ��D 下返回单列“NA”字符
在尝试使用 read.table 函数将数据表读入 R 时,我遇到了一个非常奇怪的问题。我没有读取实际数据,而是在标题 ÿþD 下得到一列 NA 字符(它不在我的代码或输入文件中的任何位置)。我的代码和数据文件如下。如果您对我为什么会得到这个奇怪的结果有任何建议,请告诉我。我一直在寻找几个小时,却一无所获。
代码:
文件(前 5 行):
r - 直接从 R 读取 .dat 和 .dct
我需要使用 .dct 文件读取 .dat 文件。有人用 R 做过吗?
格式为:
“读取格式”如下:
此处描述了存储类型:http: //www.stata.com/help.cgi?datatypes
用于信息的其他网站:
http://library.columbia.edu/indiv/dssc/technology/stata_write.html
http://www.stata.com/support/faqs/data-management/reading-fixed-format-data/
.dat 文件是一串数字,对应于 .dct 文件中指定的变量。(大概这是固定宽度列中的数据)。
这里有一个真实的例子:
.dtc 文件 http://goo.gl/qHZOk
来自stata网站的一个具体例子是:
文件(在本.dat
例中为“test.raw”)
.dct
文件_
生成的数据文件:
r - Read.csv makes everything negative
Possible Duplicate:
R seems to multiply my data by -1
I have a simple csv file. Looks like this
x y 1 2 1 3 2 1 2 3
I created it in MS Excel, saved as csv etc.
I read it using this command
ttest<--read.csv("ttest.csv", header = TRUE)
The resulting data looks like this
x y -1 -2 -1 -3 -2 -1 -2 -3
I've opened the original csv file in a text editor and it looks like it should
r - 如何使用转义字符构建对 sed 的 system() 函数调用?
我不能让它工作。我想用出现和附加的空格替换 csv 文件的第一个字段中出现的所有两个字符X
,并删除空格。例如SA
并且SA
应该映射到SAX
新文件中。以下是我尝试过的sed
(通过早期问题的帮助)
我尝试使用该sQuote()
功能,但这仍然没有帮助。该文件存在由 read.csv 处理的问题,因为某些字段中存在基于某些行上的分隔符过多和不足的错误。
我可以尝试分段读取和编辑文件,但我不知道如何将其作为流式处理。
我真的只想使用system()
调用编辑文件的第一个字段。该文件大约30GB。
r - 为什么读入的变量会比 R 中文件的存储大小消耗更多的内存
当我尝试将一个实际大小为 672MB 的大文件读入 R 时,结果发现系统内存使用量从 0.98 G 激增至 3.6 G(我使用的是 4 GB 内存桌面)。这意味着将文件存储到内存中需要数倍的空间,并且在我读入内存不足后我无法进行任何计算。这正常吗?我使用的代码:a=read.table(file.choose(),header=T,colClasses="integer",nrows=16777777,comment.char="",sep="\t")
该文件包含 167772XX 行。
gc() 在我跑步之前和之后
不知道这是什么意思。
r - 如何避免:read.table 截断以 0 开头的数值
我想.txt
在 R 中导入一个表(文件)read.table()
。我表中的一列是一个包含九个数字的 ID - 一些 ID 以 0 开头,另一些以 1 或 2 开头。
R 会截断第一个 0(012345678 变为 12345678),这会导致在使用此 ID 合并另一个表时出现问题。
有人可以给我一个提示如何解决这个问题吗?
r - 如何将 read.table 用于带有分隔符 \t 的文件
我想使用以下方法读取数据文件:
该文件tt
如下所示,带有\t
分隔符
但它不起作用:
r - 通过 read.table 将制表符分隔的 unicode 数据读入 R
我有几个文件从 Sql-Server 数据库导出为制表符分隔的 unicode 文本(数字数据和外文名称)。
如何将这些文件加载到 R 中?
每个文件的第一个位置都有一个特殊字符。我假设那是BOM。
如果没有任何选项(除了header
and sep
) ,即使使用正确的分隔符规范read.table
,也将所有数据放在一列中。\t
打开连接并跳过前三个字节会导致empty beginning of file
.
我已经尝试了所有可用的fileEncoding
值:我得到了line 1 didn't have 29 elements
或more columns than column names
。
我真的被这个难住了。理想情况下,我希望在 R 中处理所有内容,但欢迎任何 awk/powershell 建议来修复这些文件。这只是BOM问题吗?我不能做的一件事是控制 Sql-Server 的导出(我不拥有 SSIS 包)。谢谢。
编辑
对于那些有兴趣使用 unicode 选项获取 SqlServer 导出的 csv 中的数据列的人:SqlServer 以 NUL 字符开始其 csv 导出。此链接讨论了如何实际“看到”这些特殊字符:
编辑
这就是我为了获得 ASCII 并继续前进而拼凑起来的。不过,这不是我的问题的答案。
r - 无法从 Web 文本表创建 R data.frame
有一个包含澳大利亚气象站表的网站,我希望将其加载到 R data.frame 中。前几行 - 不包括标题 - 是这样的
它看起来像一个制表符分隔的文件,但是当我保存为stations.txt 并尝试read.delim、read.table 或readLines 时,我最终将所有内容都放在一列中
我也尝试在 Excel 中复制和粘贴,但没有一个分隔选项正确分隔数据