问题标签 [dryscrape]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
253 浏览

python - XQuartz & xvfbwrapper & MacOSX Sierra下的Python dryscrape "Xvfb 不启动"

在 MacOSX Sierra 和 XQuartz 2.7.11、Python 2.7 下。我能够安装 dryscrape 及其所需的其他 python 包。我已经尝试了很多方法来让一些简单的代码工作,但我似乎无法让它工作。这是简单的代码:

你可以看到它是一个简单的python脚本文件。start_svfb()它在 the或Session()line上失败。我可以发布错误等,但我可以开始讨论我应该设置、运行和测试什么检查列表以确保 X11 环境是正确的吗?我是在 OS X 终端还是 XQuartz 下运行脚本?我错过了什么?ETC。?

在此先感谢,卢卡斯。

这是python的最后一个回溯:

Traceback(最近一次调用最后一次):文件“./fred.py”,第 19 行,在

0 投票
1 回答
369 浏览

javascript - 有没有办法加快dryscrape eval_script() 的执行?

我正在使用 dryscrape 抓取网页(因为我需要 javascript 渲染的部分),并且我正在使用 eval_script() 来抑制页面上的一些基于 javascript 的错误检查。我要禁止的这个脚本基本上是一个onkeyup我需要避免的侦听器,因为它强制用户只能从下拉列表中选择选项。这是评估脚本 -

现在,与我在同一域上的其他页面实现相比,整体抓取需要更长的时间,不需要任何 javascript 修改(因此没有 eval_script())。

我做了一些分析,time.time()以查看脚本在哪里变慢,实际上,它在 eval_script() 步骤上花费了很长时间。以下是结果——

虽然当我遍历表格元素时,大约需要 2 秒,但两个 eval_script() 步骤加起来大约需要 8 秒。当我在 Chrome 开发工具控制台中执行此操作时,相同的脚本会立即运行。为什么 dryscrape 实施需要这么多时间?

0 投票
2 回答
901 浏览

python - Dryscrape:使用 xpath 从父节点列表中刮取子节点数据

我试图使用 dryscrape 和 python来抓取http://quotes.toscrape.com/用于学习目的。我能够使用 class="quote" 获得所有 div。想循环使用 class="quote" 的 div 列表,并使用 xpath 从此父元素获取多个数据。

0 投票
1 回答
126 浏览

python - 使用代理时,Dryscrape 响应总是返回“产品不可用”

我试图使用 dryscrape 废弃基于 javascript 的网站,并且在不使用代理时获得了正确的内容。但使用代理时返回“产品不可用”。这是代码片段。

请让我知道我们如何解决它。

0 投票
1 回答
532 浏览

javascript - dryscrape:“找不到路线......”

上下文

我正在尝试编写自己的货币聚合器,因为市场上大多数可用工具尚未涵盖所有金融网站。我在树莓派上使用 python 2.7.9。

多亏了 requests 库,我设法连接到我的 2 个帐户(一个是众筹网站,一个是我的养老金)。我试图聚合的第三个网站从 2 周开始就给我带来了困难,它的名字是https://www.amundi-ee.com

我发现该网站实际上使用的是 JavaScript,经过多次研究后,我最终使用了 dryscrape(我不能使用 selenium,因为不再支持 Arm)。

问题

运行此代码时:

代码访问 urlConnect 第 21 行时出现问题,正文打印第 22 行返回以下内容:

问题

为什么我有这样的错误信息,我怎样才能正确登录网站来检索我正在寻找的数据?

PS:我的代码灵感来自this issue Python dryscrape scrape page with cookies

0 投票
2 回答
709 浏览

python - Dryscrape 访问在 python 中只工作一次

我想循环访问页面。

代码是:

根据输出,页面只被访问一次,我不明白为什么?在 2., 3., .... 中没有输出:

你能帮助我吗?谢谢你。

0 投票
2 回答
135 浏览

python - 通过电脑上的“浏览文件”将文件发送到网站

我正在使用 python 中的 dryscrape 浏览网站,我需要将文件上传到该网站。但是只有一种方法可以做到这一点,即单击一个按钮并浏览我的文件并选择我想要的那个。我怎么能用python做到这一点?如果有人也可以帮助我使用dryscrape,我将不胜感激,但我接受所有答案。

继承人的示例图像: IMG

0 投票
0 回答
94 浏览

python - 在 python 程序结束时关闭 webkit_server

这几天我一直在尝试解决这个问题,但没有成功。在我的程序中,我使用 dryscrape 从使用 JavaScript 呈现的网站中抓取一些信息。当我运行程序时,dryscrape 会自动打开 webkit_server 来抓取网站,但是当程序完成时,它不会关闭 webkit_server。我可以在程序结束时运行一个函数来自动关闭 webkit_server 吗?顺便说一句,我在 mac 上,在 python 3.6 中并使用 dryscrape 1.01 和 qt 5.5。这是我完整的dryscrape代码:

在那个循环之后,我想关闭 webkit_server。

0 投票
1 回答
470 浏览

javascript - drysrape 安装 Ubuntu 服务器 16.04

我无法在 ubuntu 16.04 服务器上实现dryscrape(在数字海洋上进行全新安装) - 目的是抓取 JS 填充的网站。

我正在按照此处的干刮安装说明进行操作:

然后运行我在此处找到的以下 python 脚本以及同一链接中的测试 html 页面。(它返回 html 或 JS)

Python

HTML -scrape.php

当我这样做时,我似乎无法获得预期的返回数据,而只是错误。

我想知道我是否有什么明显的遗漏?

注意:我搜索了许多安装指南/线程,但似乎无法正常工作。我也尝试过使用硒,但似乎也无济于事。非常感谢。

输出


工作脚本

0 投票
1 回答
239 浏览

javascript - JS web-scraping没有找到一些元素

我想使用 Dryscrape 从 Google 抓取酒店房间价格结果。例如rhs_block这里https://www.google.co.uk/search?q=The+Taj+Mahal+Palace+hotel

但是它似乎没有呈现然后收集javascript,我想知道我可能哪里出错了。?

我已经在一个简单的 js 渲染页面上对此进行了测试,所以它确实有效。任何指针将不胜感激,因为干刮对我来说相当新。