2

所以我使用来自https://www.kaggle.com/jiashenliu/515k-hotel-reviews-data-in-europe/downloads/515k-hotel-reviews-data-in-europe.zip/1的数据库和我不明白为什么我不能通过子集数据集来缩小对象大小

df = read.csv('Hotel_Reviews.csv')
object.size(df)

200503848 字节

object.size(df[sample(1:nrow(df),500),])

157225848 字节

通过获取 0.1% 的数据,我只将数据缩小到 75%。我不明白为什么...

4

1 回答 1

2

好吧,在更深入地研究之后,似乎是因为我的数据框是由因素组成的,甚至通过子集,它保持空级别

df = read.csv('Hotel_Reviews.csv',stringsAsFactors = FALSE)
object.size(df)

210584168 字节

object.size(df[sample(1:nrow(df),500),])

394464 字节

于 2019-07-28T13:12:39.910 回答