我们使用 ManifoldCF 和 Postgresql (9.6) 来抓取我们的网站。在 500.000 文档之前,爬行速度很好(大约 20.000 文档/小时)。在性能下降之后,我们可以看到爬行的长时间冻结(非常长)。我们怀疑postgresql 重建了intrinsiclink 表的索引。可以禁止这个吗?通过 postgresql 的设置?
谢谢丹
我们使用 ManifoldCF 和 Postgresql (9.6) 来抓取我们的网站。在 500.000 文档之前,爬行速度很好(大约 20.000 文档/小时)。在性能下降之后,我们可以看到爬行的长时间冻结(非常长)。我们怀疑postgresql 重建了intrinsiclink 表的索引。可以禁止这个吗?通过 postgresql 的设置?
谢谢丹
您使用的是哪个 MCF 版本?尝试最新版本:2.13
大多数情况下,数据库都会拖累性能。更好地调整 PG 将获得更好的结果
根据 MCF 指南:https ://manifoldcf.apache.org/release/release-2.13/en_US/performance-tuning.html
你应该关闭 PG autovacuuming,看看是否有帮助。
调整中还有许多其他因素可以尝试。