0

我在我的应用程序中运行一个爬虫后端,每天挖掘一些网站以获取数据。

对于我抓取的每个网站,我都会创建一个实体,存储一个字符串 ID 的大列表。

  • 每个实体的近似值约为2.000 。
  • 每天大约1000 个实体。

我现在做的方式是重复的 ndb.StringProperty() 没有索引。

运行 3 天后,它消耗了我 70% 的数据存储存储空间。

下一步可以做什么?将它们存储为压缩的 json?

将它们存储在 blobstore 中并每次读取 blob 等?

还有什么?替代?

4

1 回答 1

0

压缩和 JSON 对我有用。关闭这个。

于 2013-05-13T16:01:12.440 回答