问题标签 [dryscrape]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
16101 浏览

python - pip install dryscrape 失败并显示“错误:[Errno 2] 没有这样的文件或目录:'src/webkit_server'”?

我需要为 python 安装dryscrape,但出现错误,有什么问题?

我懂了:

我的操作系统是windows 8

我的python版本是3.5

0 投票
2 回答
995 浏览

python - 我无法在 linux、pythoneverywhere 中运行 `dryscrape`

我已经成功地在 pythoneverywhere.com 中安装dryscrape了一些随附的包 ( )。webkit-server xvfbwrapper

但是,我仍然无法使用会话运行它:

返回此错误

怎么了?

0 投票
1 回答
1223 浏览

python - Dryscrape 会话无法加载任何站点

我已经在 pythonanywhere.com 上安装了 dryscrape。然而 session var 无法加载任何站点,为什么?

结果错误:

无论我从白名单中访问哪个站点,问题都是一样的。

我读过有关dryscrape安装先决条件的信息:

在安装dryscrape之前,您需要安装一些它所依赖的软件:

  • Qt, QtWebKit
  • lxml
  • 点子
  • xvfb_(仅当没有其他 X 服务器可用时才需要)

因此,pythoneverywhere 的默认模块既不是Qt也不是...QtWebKit

当我尝试安装它时,结果是一个错误(与 相同QtWebKit

干刮设置文件 setup.py:

任何帮助都是可观的......

0 投票
1 回答
3889 浏览

python - 使用 dryscrape 和 BeautifulSoup 进行网页抓取

我正在尝试从雅虎抓取一些数据。我写了一个有效的脚本 - 有时。有时,当我运行脚本时,我能够下载完整的页面 - 其他时候,页面只是部分加载 - 缺少数据部分。

更令人困惑的是,当我在浏览器中导航到该页面时,会显示整个页面。

这是我的代码的要点:

我附上了下面获取的页面的图像。这是通过网络浏览器在互联网上查看时的网页:

显示数据的页面

现在,这是我通过类似于上面显示的脚本拉下的页面 - 它没有数据!:

通过抓取下载的页面 - 没有数据!

谁能弄清楚为什么当我的脚本获取数据时元素有时会丢失?同样(更多?)重要的是,我该如何解决这个问题?

0 投票
2 回答
153 浏览

python - Cron 作业无法运行从控制台完美运行的 bash 脚本(需要 xsession 的 shell 脚本)

我在 python 脚本中使用dryscrape 。python 脚本在 bash 脚本中调用,该脚本由 cron 运行。对于那些可能不知道的人,dryscrape 是一个无头浏览器(在后台使用 QtWebkit - 所以需要一个 xsession)。

以下是关于我遇到的问题的要点

  1. 当我从命令行运行 python 脚本时,它可以工作
  2. 当我从命令行运行 bash 脚本时,它也可以工作

我发现这可能与我的命令提示符和 cron 作业运行时之间的不同环境有关,因此我修改了我的 bash 脚本以获取我的 .profile ,如下所示:

这是我的 cronjob crontab 条目的样子:

顺便说一句,我知道作业正在运行(我可以在 /var/log/syslog 中看到条目,并且脚本还写入日志文件 - 这是我收到以下错误消息的地方):

在所有情况下,我都收到以下错误消息:

无法连接到 X 服务器。在创建会话之前尝试调用 dryscrape.start_xvfb()

我已经在我的机器上安装了先决条件(显然 - 因为它在命令行上运行)。目前,我已经没有想法了。

是什么导致脚本在控制台上运行良好,然后在由 cron 运行时失败?

[[相关详情]]

  • 操作系统:Linux 16.0.4 LTS
  • bash:版本 4.3.46(1)
  • cron 用户:我自己(即命令提示符下的同一用户)
  • 干刮:版本 1.0.1
0 投票
0 回答
239 浏览

python - 如何在 dryscrape 会话和请求会话之间共享 cookie?或者如何直接从dryscrape下载pdf?

任何人都知道如何在 dryscrape 会话和请求会话之间共享 cookie?我正在抓取一个需要身份验证且充满 javascript 的网站,因此我需要使用 dryscrape 但想使用请求直接从抓取的链接下载 PDF。但是,请求会话也需要进行身份验证,我不想进行两次身份验证。此外,直接从 dryscrape 下载的方法也会有所帮助。

谢谢!

0 投票
1 回答
322 浏览

javascript - dryscrape 和 BeautifulSoup 获取 js 渲染 iframe 中的所有行

我试图在http://apps2.eere.energy.gov/wind/windexchange/economics_tools.asp上刮桌子

在此处输入图像描述

该表默认显示 5 个条目。我使用dryscrape和BeautifulSoup如下:

但这仅返回该表的默认 5 个条目。如何获取此表中的所有行?

非常感谢!

0 投票
1 回答
962 浏览

python - 使用 dryscrape 抓取 react.js 网页

我无法抓取http://www.jobs.ch使用 react.js 编程的主页。我想把这个词Business放在搜索框中并执行搜索。Dryscrape 为另一个不是 react.js 页面的示例工作。

我怎样才能Business在这个搜索字段中写下这个词?

我的脚本执行时的错误消息:

这是我的脚本:

0 投票
1 回答
196 浏览

javascript - Python:Javascript呈现的网页不解析

我想解析以下url中的信息。我想解析“交易历史”和“未平仓头寸”中的交易名称、策略描述和交易。当我解析页面时,我没有得到这些数据。我是解析 javascript 呈现网页的新手,所以我希望能解释一下为什么我的下面的代码不起作用。

谢谢!

0 投票
1 回答
214 浏览

python - 是否可以使用 dryscape Python 模块下载图像文件?

我正在尝试使用 dryscrape 抓取网页,但可以从页面中保存特定图像吗?这是一个普通的 <img> 标签。