我在我的应用程序中运行一个爬虫后端,每天挖掘一些网站以获取数据。
对于我抓取的每个网站,我都会创建一个实体,存储一个字符串 ID 的大列表。
- 每个实体的近似值约为2.000 。
- 每天大约1000 个实体。
我现在做的方式是重复的 ndb.StringProperty() 没有索引。
运行 3 天后,它消耗了我 70% 的数据存储存储空间。
下一步可以做什么?将它们存储为压缩的 json?
将它们存储在 blobstore 中并每次读取 blob 等?
还有什么?替代?
我在我的应用程序中运行一个爬虫后端,每天挖掘一些网站以获取数据。
对于我抓取的每个网站,我都会创建一个实体,存储一个字符串 ID 的大列表。
我现在做的方式是重复的 ndb.StringProperty() 没有索引。
运行 3 天后,它消耗了我 70% 的数据存储存储空间。
下一步可以做什么?将它们存储为压缩的 json?
将它们存储在 blobstore 中并每次读取 blob 等?
还有什么?替代?