我是一个新的 pythoner,现在我想读取一个大小为 250MB 的 Json 文件,这对我的内存来说相当大。该文件包含数千组用户数据。
一组用户数据的示例如下:
{"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "0a2KyEL0d3Yb1V6aivbIuQ", "review_id": "IjZ33sJrzXqU-0X6U8NwyA", "stars": 5, "date": "2011-07-27", "text": "I have no idea why some people give bad reviews about this place. It goes to show you, you can please everyone. That goes to show you that you have to try these things yourself because all these bad reviewers have some serious issues.", "type": "review", "business_id": "ZRJwVLyzEJq1VAihDhYiow"}
我的目标是根据“文本”标签为每个用户构建词袋模型。所以我目前的想法是加载这个大文件。但我认为我的内存无法支持这种工作量。那么这个任务有什么好主意,或者我们是否可以将文件切割成多个文件,每个文件对应于每个用户数据?