我正在使用 dryscrape 抓取网页(因为我需要 javascript 渲染的部分),并且我正在使用 eval_script() 来抑制页面上的一些基于 javascript 的错误检查。我要禁止的这个脚本基本上是一个onkeyup
我需要避免的侦听器,因为它强制用户只能从下拉列表中选择选项。这是评估脚本 -
session.eval_script("$('#input_elem').removeAttr('onblur onclick onkeyup');")
现在,与我在同一域上的其他页面实现相比,整体抓取需要更长的时间,不需要任何 javascript 修改(因此没有 eval_script())。
我做了一些分析,time.time()
以查看脚本在哪里变慢,实际上,它在 eval_script() 步骤上花费了很长时间。以下是结果——
Starting to access at 0.00997018814087
Visited page https://*****/***.aspx 1.30053019524
First eval script run done 5.97628307343
Second eval script run done 9.61053919792
xpath 1 9.6632771492
xpath 2 9.7702870369
xpath 3 9.90402317047
xpath of button to be clicked 9.91756606102
Button clicked 9.97191905975
Second page visited 10.4508111477
Loop 1 else 10.4525721073
xpath 4 10.5330061913
xpath 5 10.6111950874
xpath 6 10.6918411255
xpath 7 10.7721481323
Range begins 10.8208150864
3
Range ends 13.0008580685
虽然当我遍历表格元素时,大约需要 2 秒,但两个 eval_script() 步骤加起来大约需要 8 秒。当我在 Chrome 开发工具控制台中执行此操作时,相同的脚本会立即运行。为什么 dryscrape 实施需要这么多时间?