0

我正在使用 Google App Engine 创建一个网络应用程序。该应用程序有一个实体,用户将通过上传工具插入其记录。用户可以选择多达 5K 行(对象)的数据。我正在使用 DataNucleus 项目作为 JDO 实现。这是我将数据插入数据存储所采用的方法。

  1. 从 CSV 读取数据并转换为实体对象并存储在列表中。
  2. 该列表分为较小的对象组,例如大约 300 个/组。
  3. 使用 memcache 将每个组序列化并存储在缓存中,并使用唯一的 id 作为键。
  4. 对于每个组,都会创建一个任务并将其与密钥一起插入到队列中。每个任务调用一个 servlet,该 servlet 将此键作为输入参数,从内存中读取数据并将其插入数据存储并从内存中删除数据。

队列的最大速率为 2/min,桶大小为 1。我面临的问题是任务无法将所有 300 条记录插入数据存储。在 300 个中,插入的最大值约为 50 个。从 memcache 读取数据后,我已经验证了数据,并且能够从内存中取回所有存储的数据。我正在使用 PersistenceManager 的 makepersistent 方法将数据保存到 ds。有人可以告诉我可能是什么问题吗?

另外,我想知道,是否有更好的方法来处理批量插入/更新记录。我使用了 BulkInsert 工具。但在这种情况下,它就不能满足要求。

4

1 回答 1

1

这是App Engine mapreduce的完美用例。Mapreduce 可以从 blob 中读取文本行作为输入,它会为您分割您的输入并在任务队列上执行它。

当您说bulkloader“将不满足要求”时,如果您说出它不满足的要求会有所帮助 - 我认为在这种情况下,问题是您需要非管理员用户上传数据。

于 2010-11-02T10:43:53.210 回答