7

可能重复:
应用程序引擎批量加载程序下载警告“上没有降序索引,正在执行串行下载”

我的帖子非常类似于:App engine bulk loader download warning "No descending index on __key__, perform serial download"

我基本上想做同样的事情。

基本上,我使用以下内容下载我的一种类型的所有实例:

appcfg.py download_data --config_file=bulkloader.yaml --kind=ModelName --filename=ModelName.csv --application=MyAppid --url=http://MyAppid.appspot.com/remote_api

如果该种类的实例数量多于批量大小,那么我会收到以下警告:

No descending index on __key__, performing serial download

这导致我仅下载大约 6500 个实体需要 471.4 秒(根据完成后的 bulkloader 工具)。这真的很慢,因为我有大约 4 种其他类型甚至比这更大(大约 15,000 个实体)!

同样根据我的 Mac 的活动监视器,我只以大约 24Kb/秒的速度下载,如bulkloader输出中的带宽所示:

[INFO    ] Logging to bulkloader-log-20110514.011333
[INFO    ] Throttling transfers:
[INFO    ] Bandwidth: 250000 bytes/second
[INFO    ] HTTP connections: 8/second
[INFO    ] Entities inserted/fetched/modified: 20/second
[INFO    ] Batch Size: 10

我的问题是:

1)如何摆脱“__key__上没有降序索引,执行串行下载”的警告以获得并行下载速度?

我认为我的问题的答案是添加降序索引。就像是:

<datastore-index kind="Game" ancestor="false" source="manual">
    <property name="id" direction="desc"/>
</datastore-index>

我尝试将此添加到 datastore-indexes.xml 文件中。

它部署成功,但我在 Google 的管理门户上查看了我的 Datastore 索引,但我没有看到它正在服务或正在构建。无论如何,为了它,我重新运行了下面的命令,它仍然很慢......

我还尝试将相同的 xml,但使用 source="auto" 添加到 datastore-indexes-auto.xml 文件中。但是,当我尝试部署我的 eclipse 时抱怨以下错误:

java.io.IOException: Error posting to URL: https://appengine.google.com/api/datastore/index/add?app_id=<My_APP_ID>&version=1&
400 Bad Request
Creating a composite index failed: This index:
entity_type: "Game"
ancestor: false
Property {
 name: "id"
 direction: 2
}

is not necessary, since single-property indices are built in. Please remove it from your index file and upgrade to the latest version of the SDK, if you haven't already.

2) 删除此警告是否需要我更新自动生成的 bulkloader.yaml?我在下面包含了游戏类型:

python_preamble:
- import: base64
- import: re
- import: google.appengine.ext.bulkload.transform
- import: google.appengine.ext.bulkload.bulkloader_wizard
- import: google.appengine.ext.db
- import: google.appengine.api.datastore
- import: google.appengine.api.users

transformers:

- kind: Game
  connector: csv
  connector_options:
    # TODO: Add connector options here--these are specific to each connector.
  property_map:
    - property: id
      external_name: key
      export_transform: transform.key_id_or_name_as_string

    - property: __scatter__
      #external_name: __scatter__
      # Type: ShortBlob Stats: 56 properties of this type in this kind.

    - property: genre
      external_name: genre
      # Type: String Stats: 6639 properties of this type in this kind.

    - property: name
      external_name: name
      # Type: String Stats: 6639 properties of this type in this kind.

    - property: releasedate
      external_name: releasedate
      # Type: Date/Time Stats: 6548 properties of this type in this kind.
      import_transform: transform.import_date_time('%Y-%m-%dT%H:%M:%S')
      export_transform: transform.export_date_time('%Y-%m-%dT%H:%M:%S')

有用的发现

当我输入这个问题时。我发现了这个App Engine Bulk Loader Performance

它基本上解释了将bandwidth_limit增加到合理的值并增加rps_limit确实有助于加快速度。

所以我尝试了:

appcfg.py download_data --config_file=bulkloader.yaml --kind=ModelName --filename=ModelName.csv --application=MyAppId --url=http://MyAppId.appspot.com/remote_api --rps_limit=500 --bandwidth_limit=2500000 --batch_size=100

这将下载时间减少到 109.8 秒。这是一个巨大的减少!

但是,我的目标仍然集中在摆脱“__key__上没有降序索引,执行串行下载”以进行并行下载。


额外信息,以防可能相关

我正在使用 objectify3.0.jar 来操作我的 GAE 数据存储。所以我的游戏类型看起来像这样:

public class Game {
    @Id private Long id; //This is my key, auto generated by objectify  
    private String name;
    private String genre; 
    private Date releasedate;

    //ommitting getters and setters 
}
4

0 回答 0