问题标签 [dryscrape]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

35 问题

0 投票

4 回答

16101 浏览

python - pip install dryscrape 失败并显示“错误：[Errno 2] 没有这样的文件或目录：'src/webkit_server'”？

我需要为 python 安装dryscrape，但出现错误，有什么问题？

我懂了：

我的操作系统是windows 8

我的python版本是3.5

2016-08-05T12:03:40.497

0 投票

2 回答

995 浏览

python - 我无法在 linux、pythoneverywhere 中运行 `dryscrape`

我已经成功地在 pythoneverywhere.com 中安装dryscrape了一些随附的包 ( )。webkit-server xvfbwrapper

但是，我仍然无法使用会话运行它：

返回此错误

怎么了？

python session web-scraping dryscrape

2016-11-10T15:24:02.387

0 投票

1 回答

1223 浏览

python - Dryscrape 会话无法加载任何站点

我已经在 pythonanywhere.com 上安装了 dryscrape。然而 session var 无法加载任何站点，为什么？

结果错误：

无论我从白名单中访问哪个站点，问题都是一样的。

我读过有关dryscrape安装先决条件的信息：

在安装dryscrape之前，您需要安装一些它所依赖的软件：

Qt, QtWebKit

lxml

点子

xvfb_（仅当没有其他 X 服务器可用时才需要）

因此，pythoneverywhere 的默认模块既不是Qt也不是...QtWebKit

当我尝试安装它时，结果是一个错误（与相同QtWebKit）

干刮设置文件 setup.py：

任何帮助都是可观的......

python qt session pythonanywhere dryscrape

2016-11-11T10:55:03.800

0 投票

1 回答

3889 浏览

python - 使用 dryscrape 和 BeautifulSoup 进行网页抓取

我正在尝试从雅虎抓取一些数据。我写了一个有效的脚本 - 有时。有时，当我运行脚本时，我能够下载完整的页面 - 其他时候，页面只是部分加载 - 缺少数据部分。

更令人困惑的是，当我在浏览器中导航到该页面时，会显示整个页面。

这是我的代码的要点：

我附上了下面获取的页面的图像。这是通过网络浏览器在互联网上查看时的网页：

现在，这是我通过类似于上面显示的脚本拉下的页面 - 它没有数据！：

谁能弄清楚为什么当我的脚本获取数据时元素有时会丢失？同样（更多？）重要的是，我该如何解决这个问题？

python web-scraping beautifulsoup lxml dryscrape

2017-01-25T20:20:14.053

0 投票

2 回答

153 浏览

python - Cron 作业无法运行从控制台完美运行的 bash 脚本（需要 xsession 的 shell 脚本）

我在 python 脚本中使用dryscrape 。python 脚本在 bash 脚本中调用，该脚本由 cron 运行。对于那些可能不知道的人，dryscrape 是一个无头浏览器（在后台使用 QtWebkit - 所以需要一个 xsession）。

以下是关于我遇到的问题的要点

当我从命令行运行 python 脚本时，它可以工作
当我从命令行运行 bash 脚本时，它也可以工作

我发现这可能与我的命令提示符和 cron 作业运行时之间的不同环境有关，因此我修改了我的 bash 脚本以获取我的 .profile ，如下所示：

这是我的 cronjob crontab 条目的样子：

顺便说一句，我知道作业正在运行（我可以在 /var/log/syslog 中看到条目，并且脚本还写入日志文件 - 这是我收到以下错误消息的地方）：

在所有情况下，我都收到以下错误消息：

无法连接到 X 服务器。在创建会话之前尝试调用 dryscrape.start_xvfb()

我已经在我的机器上安装了先决条件（显然 - 因为它在命令行上运行）。目前，我已经没有想法了。

是什么导致脚本在控制台上运行良好，然后在由 cron 运行时失败？

[[相关详情]]

操作系统：Linux 16.0.4 LTS
bash：版本 4.3.46(1)
cron 用户：我自己（即命令提示符下的同一用户）
干刮：版本 1.0.1

python bash cron qtwebkit dryscrape

2017-01-27T15:22:39.340

0 投票

0 回答

239 浏览

python - 如何在 dryscrape 会话和请求会话之间共享 cookie？或者如何直接从dryscrape下载pdf？

任何人都知道如何在 dryscrape 会话和请求会话之间共享 cookie？我正在抓取一个需要身份验证且充满 javascript 的网站，因此我需要使用 dryscrape 但想使用请求直接从抓取的链接下载 PDF。但是，请求会话也需要进行身份验证，我不想进行两次身份验证。此外，直接从 dryscrape 下载的方法也会有所帮助。

谢谢！

python session cookies web-crawler dryscrape

2017-02-02T09:36:36.083

0 投票

1 回答

322 浏览