我在文本编辑器中看到的是“|”的使用 作为分隔符而不是 "\n" 并且在第 1724 行这个序列:
kibbled [ìGrtzeî or ìgruttenî], pearl...
有两个不同的重音字符似乎是封闭的Grtze
,grutten
但您看到的字符没有显示。
当我在 Mac 上阅读它时:
read.table("~/Downloads/lines/1720-1730.txt", sep="|")
有问题的字符是这样出现的:
[\x93Gr\032tze\x94 or \x93grutten\x94]
所以你看到的“箭头”是\032
。我发现很难理解各种“转义”的 R 输出的含义。最好看的地方是?Quotes
页面,我们知道这是 32八进制或 26 十进制。您可能想在输入策略时尝试一下,看看效果如何:
x <- read.table("yourpath/filename.txt", sep="|", stringsAsFactors=FALSE, allowEscapes = TRUE)
如果这还不够,请尝试添加编码选项“latin1”、“UTF-8”、“UTF-16”之一,如果不成功,还有其他 Windows 编码尚未尝试。
当您收到有关元素数量较少的消息时,通常意味着存在不匹配的引号或嵌入的哈希(“#”)。您可以添加以下参数:quote="", comment.char=""
. 如果您想查看这些附加注释的效果,可以使用:
table(count.fields("yourpath/filename.txt", sep="|", stringsAsFactors=FALSE,
allowEscapes = TRUE, quote="", comment.char=""))
有进一步的检查操作可以让您查看哪些线路有问题:
which(count.fields("yourpath/filename.txt", sep="|", stringsAsFactors=FALSE,
allowEscapes = TRUE, quote="", comment.char="") == 28)
您的语言环境和默认编码之间可能不匹配。你应该报告结果sessionInfo()
我看到的解决奇怪问题的编码包括“CP1252”、“Latin2”(即 ISO-8859-2),但我发现编码列表比我预期的要大:
iconvlist() # 419 encodings
如果您知道创建该文件的组织,那么为什么不问他们呢?
从该“主” zip 文件中包含的多个 zip 文件中的第一个,我们看到了我的建议使用的结果count.fields
:
table( count.fields("~/Downloads/SMKA12_2012archive/SMKA121212", quote="",
sep="|",comment.char="") )
#------------
15 27 28
1 10228 1
which( count.fields("~/Downloads/SMKA12_2012archive/SMKA121212", quote="", sep="|",comment.char="") ==15)
#[1] 1
which( count.fields("~/Downloads/SMKA12_2012archive/SMKA121212", quote="", sep="|",comment.char="") ==28)
#[1] 10230
在带有 R 3.0.1 和 TextEdit.app 的 Mac 上读取这些文件。第一条记录似乎不是真正的标题,而是一个符号,可能表示数据记录的月份:
000000000|||||||||||||||||||||||||HMCUSTOMS 控制数据|2012|12
最后一条记录有一个非数据尾随记录,其中包括附加到它的最终记录计数。999999999| | | | | | | | | | | | | | | | | | | | | | | | | | |0010228
所以使用 skip= 1 和 fill =TRUE 应该允许无错误输入。
dat <- read.table("~/Downloads/SMKA12_2012archive/SMKA121212", quote="", sep="|",comment.char="", fill=TRUE, skip=1 , colClasses=c( rep("integer", 2), rep("character", 4), rep("integer", 24-7+1), rep("character", 3)))
> str(dat)
'data.frame': 10230 obs. of 27 variables:
$ V1 : int 10110100 10110900 10121000 10129100 10129900 10130000 10190000 10190110 10190190 10190300 ...
$ V2 : int 0 0 0 0 0 0 0 0 0 0 ...
$ V3 : chr "00/00" "00/00" "01/12" "01/12" ...
$ V4 : chr "12/11" "12/11" "00/00" "00/00" ...
$ V5 : chr "00/00" "00/00" "01/12" "01/12" ...
$ V6 : chr "12/11" "12/11" "00/00" "00/00" ...
$ V7 : int 0 0 0 0 0 0 0 0 0 0 ...
$ V8 : int 150 150 150 150 150 150 150 150 150 150 ...
$ V9 : int 2 2 2 2 2 2 2 2 2 2 ...
$ V10: int 13 13 13 13 13 13 13 13 13 13 ...
$ V11: int 0 0 0 0 0 0 0 0 0 0 ...
$ V12: int 200 200 200 200 200 200 200 200 200 200 ...
$ V13: int 0 0 0 0 0 0 0 0 0 0 ...
$ V14: int 0 0 0 0 0 0 0 0 0 0 ...
$ V15: int 0 0 0 0 0 0 0 0 0 0 ...
$ V16: int 0 0 0 0 0 0 0 0 0 0 ...
$ V17: int 0 0 0 0 0 0 0 0 0 0 ...
$ V18: int 0 0 0 0 0 0 0 0 0 0 ...
$ V19: int 0 0 0 0 0 0 0 0 0 0 ...
$ V20: int 0 0 0 0 0 0 0 0 0 0 ...
$ V21: int 0 0 0 0 0 0 0 0 0 0 ...
$ V22: int 0 0 0 0 0 0 0 0 0 0 ...
$ V23: int 0 0 0 0 0 0 0 0 0 0 ...
$ V24: int 0 0 0 0 0 0 0 0 0 0 ...
$ V25: chr "KG " "KG " "KG " "KG " ...
$ V26: chr "NO " "NO " "NO " "NO " ...
$ V27: chr "Pure-bred breeding horses "| __truncated__ "Pure-bred breeding asses "| __truncated__ "Pure-bred breeding horses "| __truncated__ "Horses for slaughter "| __truncated__ ...
至于编码问题,我无法提供进一步的见解:
Encoding (readLines("~/Downloads/SMKA12_2012archive/SMKA121212", n=1))
#[1] "unknown"