3

我将如何构建一个基于查询的 DataStoreInputReader(而不是读取该类型的每个实体)。基本原理是最小化读取(因为查询被索引到子集)和处理时间。

  1. 首先,这是个好主意吗?或者使用查询支持的自定义数据存储输入读取器会实际节省时间和处理,还是查询本身会取消 mapreduce 并行性或增加其他开销?

  2. 二、怎么办?我一直在阅读 *input_readers.py* 并且不清楚如何对 AbstractDataStoreInputReader 进行子类化来执行此操作。也许有人可以解释实现这样的过程的过程,因为阅读代码并不清楚(并且文档已过时或不存在)。

对于那些可以指向显示自定义数据存储输入读取器实现的工作代码(github 或其他)的人来说,布朗尼点数。

这对于使 AppEngine MapReduce 更易于开发人员访问或更友好 ;-)

4

2 回答 2

3

http://code.google.com/p/appengine-mapreduce/source/browse/trunk/python/src/mapreduce/input_readers.py DatastoreInputReader 现在确实支持过滤器!

于 2013-02-22T06:10:33.180 回答
0

从文档DatastoreInputReader

此阅读器不进行过滤:您需要在映射器中进行任何所需的过滤。

于 2012-07-28T20:04:20.800 回答