我的帖子非常类似于:App engine bulk loader download warning "No descending index on __key__, perform serial download"
我基本上想做同样的事情。
基本上,我使用以下内容下载我的一种类型的所有实例:
appcfg.py download_data --config_file=bulkloader.yaml --kind=ModelName --filename=ModelName.csv --application=MyAppid --url=http://MyAppid.appspot.com/remote_api
如果该种类的实例数量多于批量大小,那么我会收到以下警告:
No descending index on __key__, performing serial download
这导致我仅下载大约 6500 个实体需要 471.4 秒(根据完成后的 bulkloader 工具)。这真的很慢,因为我有大约 4 种其他类型甚至比这更大(大约 15,000 个实体)!
同样根据我的 Mac 的活动监视器,我只以大约 24Kb/秒的速度下载,如bulkloader输出中的带宽所示:
[INFO ] Logging to bulkloader-log-20110514.011333
[INFO ] Throttling transfers:
[INFO ] Bandwidth: 250000 bytes/second
[INFO ] HTTP connections: 8/second
[INFO ] Entities inserted/fetched/modified: 20/second
[INFO ] Batch Size: 10
我的问题是:
1)如何摆脱“__key__上没有降序索引,执行串行下载”的警告以获得并行下载速度?
我认为我的问题的答案是添加降序索引。就像是:
<datastore-index kind="Game" ancestor="false" source="manual">
<property name="id" direction="desc"/>
</datastore-index>
我尝试将此添加到 datastore-indexes.xml 文件中。
它部署成功,但我在 Google 的管理门户上查看了我的 Datastore 索引,但我没有看到它正在服务或正在构建。无论如何,为了它,我重新运行了下面的命令,它仍然很慢......
我还尝试将相同的 xml,但使用 source="auto" 添加到 datastore-indexes-auto.xml 文件中。但是,当我尝试部署我的 eclipse 时抱怨以下错误:
java.io.IOException: Error posting to URL: https://appengine.google.com/api/datastore/index/add?app_id=<My_APP_ID>&version=1&
400 Bad Request
Creating a composite index failed: This index:
entity_type: "Game"
ancestor: false
Property {
name: "id"
direction: 2
}
is not necessary, since single-property indices are built in. Please remove it from your index file and upgrade to the latest version of the SDK, if you haven't already.
2) 删除此警告是否需要我更新自动生成的 bulkloader.yaml?我在下面包含了游戏类型:
python_preamble:
- import: base64
- import: re
- import: google.appengine.ext.bulkload.transform
- import: google.appengine.ext.bulkload.bulkloader_wizard
- import: google.appengine.ext.db
- import: google.appengine.api.datastore
- import: google.appengine.api.users
transformers:
- kind: Game
connector: csv
connector_options:
# TODO: Add connector options here--these are specific to each connector.
property_map:
- property: id
external_name: key
export_transform: transform.key_id_or_name_as_string
- property: __scatter__
#external_name: __scatter__
# Type: ShortBlob Stats: 56 properties of this type in this kind.
- property: genre
external_name: genre
# Type: String Stats: 6639 properties of this type in this kind.
- property: name
external_name: name
# Type: String Stats: 6639 properties of this type in this kind.
- property: releasedate
external_name: releasedate
# Type: Date/Time Stats: 6548 properties of this type in this kind.
import_transform: transform.import_date_time('%Y-%m-%dT%H:%M:%S')
export_transform: transform.export_date_time('%Y-%m-%dT%H:%M:%S')
有用的发现
当我输入这个问题时。我发现了这个App Engine Bulk Loader Performance
它基本上解释了将bandwidth_limit增加到合理的值并增加rps_limit确实有助于加快速度。
所以我尝试了:
appcfg.py download_data --config_file=bulkloader.yaml --kind=ModelName --filename=ModelName.csv --application=MyAppId --url=http://MyAppId.appspot.com/remote_api --rps_limit=500 --bandwidth_limit=2500000 --batch_size=100
这将下载时间减少到 109.8 秒。这是一个巨大的减少!
但是,我的目标仍然集中在摆脱“__key__上没有降序索引,执行串行下载”以进行并行下载。
额外信息,以防可能相关
我正在使用 objectify3.0.jar 来操作我的 GAE 数据存储。所以我的游戏类型看起来像这样:
public class Game {
@Id private Long id; //This is my key, auto generated by objectify
private String name;
private String genre;
private Date releasedate;
//ommitting getters and setters
}