我一直在尝试将 csv 文件读入 R,但它一直被切断。我认为这可能是由于文件编码,但我不确定。
这是我运行的代码:
read.csv('crunchbase_companies_2.csv', fileEncoding="UTF-8", quote="")
然后我收到一条警告消息:In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,: invalid input found on input connection
.
R 读取数据,但仅在它遇到特殊字符然后停止时才读取。所以我最终只得到了 R 中的部分数据。我粘贴了我在这里得到的数据:http: //pastebin.com/EQLnXz2W。请注意,当它碰到“Ì”之类的东西时它会切断。所以这些字符不在样本数据中。
我还使用 . 检查了终端中的编码file
。它返回Non-ISO extended-ASCII English text, with CR line terminators
。
我需要做什么才能读取整个数据集?