1

我是一个新的 pythoner,现在我想读取一个大小为 250MB 的 Json 文件,这对我的内存来说相当大。该文件包含数千组用户数据。

一组用户数据的示例如下:

{"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "0a2KyEL0d3Yb1V6aivbIuQ", "review_id": "IjZ33sJrzXqU-0X6U8NwyA", "stars": 5, "date": "2011-07-27", "text": "I have no idea why some people give bad reviews about this place. It goes to show you, you can please everyone. That goes to show you that  you have to try these things yourself because all these bad reviewers have some serious issues.", "type": "review", "business_id": "ZRJwVLyzEJq1VAihDhYiow"}

我的目标是根据“文本”标签为每个用户构建词袋模型。所以我目前的想法是加载这个大文件。但我认为我的内存无法支持这种工作量。那么这个任务有什么好主意,或者我们是否可以将文件切割成多个文件,每个文件对应于每个用户数据?

4

1 回答 1

0

我建议您将用户数据保存在couchbase或其他一些数据库中并包装在lru_cache中。

原因是由于不可能将所有数据保存在内存中,因此您需要将一些数据保存在磁盘上。一旦您必须处理哪些数据在内存中与哪些数据在磁盘上,那么最好使用数据库来为您完成。

于 2013-04-28T02:24:33.513 回答