r - 如何检查 readtext 是否无法读取文件的一部分

翻译自：https://stackoverflow.com/questions/49844636 2018-04-15T17:10:12.563

73 次

我正在使用 readtext() 读取文本文件。
它似乎是用 utf-8 编码的（根据 notepad++，我无法验证）；
我不确定它是否编码正确或是否存在一些错误/损坏。
根据 Windows 资源管理器，磁盘上的文件大小为 200+ Mb。
当我阅读它并检查它在 RAM 中的大小时

format(object.size(my_rt), units = "MiB"))

我明白了

[1] 15 MiB # I manually removed some irrilevant info

readtext() 在阅读时不会给出任何错误或警告

my_rt <- readtext(nomeFile, docvarsfrom = "filenames"
    ,docvarnames = c("lng","country","type","b","c","d")
                   ,dvsep = "[_.]", encoding = "UTF-8"
                   , verbosity = 3)

我几乎可以肯定整个文件没有被完全读取，因为稍大的文件占用 RAM 198.2 Mib，而较小的文件占用 157 MiB。

有没有办法了解 readtext 出了什么问题以及在哪里？
尽管不了解问题是什么，我是否应该将此报告为 readtext 的问题？

r - 如何检查 readtext 是否无法读取文件的一部分

0 回答 0

Related

Reference