2

我正在处理一些输入文件并将获得的记录作为 CouchDB 文档插入。我注意到插入速度随着数据库大小的增加而降低。

我要做的是:

  1. 从输入文件中读取数据
  2. 处理数据以获得结构化文档
  3. 将文档放入本地缓冲区
  4. 一旦缓冲区有 1000 个文档,就执行一个 couchdb 批量插入
  5. 重复直到输入数据被完全处理

这里有我当前运行的日志:

2012-03-15 10:15:58,716 - docs= 10000 rate=2282.38 entries/s
2012-03-15 10:16:46,748 - docs=100000 rate=1822.76 entries/s
2012-03-15 10:17:47,433 - docs=200000 rate=1592.01 entries/s
2012-03-15 10:18:48,566 - docs=300000 rate=1358.32 entries/s
2012-03-15 10:19:54,637 - docs=400000 rate=1572.55 entries/s
2012-03-15 10:21:01,690 - docs=500000 rate=1560.41 entries/s
2012-03-15 10:22:09,400 - docs=600000 rate=1556.22 entries/s
2012-03-15 10:23:16,153 - docs=700000 rate=1550.21 entries/s
2012-03-15 10:24:30,850 - docs=800000 rate=1393.61 entries/s
2012-03-15 10:25:46,099 - docs=900000 rate=1336.83 entries/s
2012-03-15 10:27:09,290 - docs=1000000 rate= 871.37 entries/s
2012-03-15 10:28:31,745 - docs=1100000 rate=1256.36 entries/s
2012-03-15 10:29:53,313 - docs=1200000 rate=1140.49 entries/s
2012-03-15 10:31:29,207 - docs=1300000 rate=1080.79 entries/s
2012-03-15 10:33:23,917 - docs=1400000 rate= 741.65 entries/s
2012-03-15 10:35:45,475 - docs=1500000 rate= 567.96 entries/s
2012-03-15 10:39:04,293 - docs=1600000 rate= 564.01 entries/s
2012-03-15 10:42:20,160 - docs=1700000 rate= 499.29 entries/s
2012-03-15 10:46:06,270 - docs=1800000 rate= 505.04 entries/s
2012-03-15 10:50:24,745 - docs=1900000 rate= 402.14 entries/s
2012-03-15 10:55:23,800 - docs=2000000 rate= 346.19 entries/s
2012-03-15 11:02:03,217 - docs=2100000 rate= 274.59 entries/s
2012-03-15 11:08:21,690 - docs=2200000 rate= 269.57 entries/s

“速率”显示了最后一千个文档的插入速率,正如您所看到的,它正在迅速下降。

  • 这是正常的吗?
  • 我可以做些什么来保持高插入率吗?
  • 您是否有使用大型 CouchDB 数据库的经验。
  • 您想分享任何建议吗?
4

1 回答 1

4

高插入率是异常的,这是由于所有内容都整齐地适合您的磁盘缓存。随着数据库大小的增加,您最终需要从磁盘读取数据以更新 btree。最好运行更长的插入测试,绘制图表,然后您应该看到前面的巨大峰值是奇怪的,而不是跟随它的较低但或多或少的恒定速率。

从您问过这个问题的其他线程来看,另一个重要因素是您使用了完全随机的 uuid。因为 CouchDB 是基于 b+tree 的,所以插入完全随机的 id 是最糟糕的更新场景。CouchDB 附带了许多 uuid 算法,默认情况下,称为“顺序”返回值具有非常低的冲突机会,这些值仍然足够顺序以提供更好的插入性能。

于 2012-03-18T22:44:17.697 回答