0

我正在使用 readtext() 读取文本文件。
它似乎是用 utf-8 编码的(根据 notepad++,我无法验证);
我不确定它是否编码正确或是否存在一些错误/损坏。
根据 Windows 资源管理器,磁盘上的文件大小为 200+ Mb。
当我阅读它并检查它在 RAM 中的大小时

format(object.size(my_rt), units = "MiB"))

我明白了

[1] 15 MiB # I manually removed some irrilevant info  

readtext() 在阅读时不会给出任何错误或警告

my_rt <- readtext(nomeFile, docvarsfrom = "filenames"
    ,docvarnames = c("lng","country","type","b","c","d")
                   ,dvsep = "[_.]", encoding = "UTF-8"
                   , verbosity = 3)

我几乎可以肯定整个文件没有被完全读取,因为稍大的文件占用 RAM 198.2 Mib,而较小的文件占用 157 MiB。

有没有办法了解 readtext 出了什么问题以及在哪里?
尽管不了解问题是什么,我是否应该将此报告为 readtext 的问题?

4

0 回答 0