问题标签 [dryscrape]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - XQuartz & xvfbwrapper & MacOSX Sierra下的Python dryscrape "Xvfb 不启动"
在 MacOSX Sierra 和 XQuartz 2.7.11、Python 2.7 下。我能够安装 dryscrape 及其所需的其他 python 包。我已经尝试了很多方法来让一些简单的代码工作,但我似乎无法让它工作。这是简单的代码:
你可以看到它是一个简单的python脚本文件。start_svfb()
它在 the或Session()
line上失败。我可以发布错误等,但我可以开始讨论我应该设置、运行和测试什么检查列表以确保 X11 环境是正确的吗?我是在 OS X 终端还是 XQuartz 下运行脚本?我错过了什么?ETC。?
在此先感谢,卢卡斯。
这是python的最后一个回溯:
Traceback(最近一次调用最后一次):文件“./fred.py”,第 19 行,在
javascript - 有没有办法加快dryscrape eval_script() 的执行?
我正在使用 dryscrape 抓取网页(因为我需要 javascript 渲染的部分),并且我正在使用 eval_script() 来抑制页面上的一些基于 javascript 的错误检查。我要禁止的这个脚本基本上是一个onkeyup
我需要避免的侦听器,因为它强制用户只能从下拉列表中选择选项。这是评估脚本 -
现在,与我在同一域上的其他页面实现相比,整体抓取需要更长的时间,不需要任何 javascript 修改(因此没有 eval_script())。
我做了一些分析,time.time()
以查看脚本在哪里变慢,实际上,它在 eval_script() 步骤上花费了很长时间。以下是结果——
虽然当我遍历表格元素时,大约需要 2 秒,但两个 eval_script() 步骤加起来大约需要 8 秒。当我在 Chrome 开发工具控制台中执行此操作时,相同的脚本会立即运行。为什么 dryscrape 实施需要这么多时间?
python - Dryscrape:使用 xpath 从父节点列表中刮取子节点数据
我试图使用 dryscrape 和 python来抓取http://quotes.toscrape.com/用于学习目的。我能够使用 class="quote" 获得所有 div。想循环使用 class="quote" 的 div 列表,并使用 xpath 从此父元素获取多个数据。
python - 使用代理时,Dryscrape 响应总是返回“产品不可用”
我试图使用 dryscrape 废弃基于 javascript 的网站,并且在不使用代理时获得了正确的内容。但使用代理时返回“产品不可用”。这是代码片段。
请让我知道我们如何解决它。
javascript - dryscrape:“找不到路线......”
上下文:
我正在尝试编写自己的货币聚合器,因为市场上大多数可用工具尚未涵盖所有金融网站。我在树莓派上使用 python 2.7.9。
多亏了 requests 库,我设法连接到我的 2 个帐户(一个是众筹网站,一个是我的养老金)。我试图聚合的第三个网站从 2 周开始就给我带来了困难,它的名字是https://www.amundi-ee.com。
我发现该网站实际上使用的是 JavaScript,经过多次研究后,我最终使用了 dryscrape(我不能使用 selenium,因为不再支持 Arm)。
问题:
运行此代码时:
代码访问 urlConnect 第 21 行时出现问题,正文打印第 22 行返回以下内容:
问题
为什么我有这样的错误信息,我怎样才能正确登录网站来检索我正在寻找的数据?
PS:我的代码灵感来自this issue Python dryscrape scrape page with cookies
python - Dryscrape 访问在 python 中只工作一次
我想循环访问页面。
代码是:
根据输出,页面只被访问一次,我不明白为什么?在 2., 3., .... 中没有输出:
你能帮助我吗?谢谢你。
python - 在 python 程序结束时关闭 webkit_server
这几天我一直在尝试解决这个问题,但没有成功。在我的程序中,我使用 dryscrape 从使用 JavaScript 呈现的网站中抓取一些信息。当我运行程序时,dryscrape 会自动打开 webkit_server 来抓取网站,但是当程序完成时,它不会关闭 webkit_server。我可以在程序结束时运行一个函数来自动关闭 webkit_server 吗?顺便说一句,我在 mac 上,在 python 3.6 中并使用 dryscrape 1.01 和 qt 5.5。这是我完整的dryscrape代码:
在那个循环之后,我想关闭 webkit_server。
javascript - JS web-scraping没有找到一些元素
我想使用 Dryscrape 从 Google 抓取酒店房间价格结果。例如rhs_block
这里https://www.google.co.uk/search?q=The+Taj+Mahal+Palace+hotel
但是它似乎没有呈现然后收集javascript,我想知道我可能哪里出错了。?
我已经在一个简单的 js 渲染页面上对此进行了测试,所以它确实有效。任何指针将不胜感激,因为干刮对我来说相当新。