问题标签 [scrapyjs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1024 浏览

python - 安装 ScrapyJS - python 新手

我正在尝试使用这个 scrapy 插件(或它是什么):scrapyjs

但是没有安装说明,而且我是 Python 新手。这里有什么我缺少的基本内容吗?我如何将它与一个scrapy项目集成。

注意:我更喜欢使用 Scrapy 下载处理程序而不是中间件版本,因为它看起来运行起来会更快。(如我错了请纠正我)。

0 投票
0 回答
661 浏览

python - ScrapyJs Javascript 未启用

我正在尝试抓取一个包含 javascript 代码和使用 javascript 代码准备的网站内容的网站。

安装了 Scrapy 和 Splash。

Splash 正在使用此代码运行

当我想获取网站代码时,render.html 显示“Javascript 未启用。请在浏览器中启用 JavaScript”。

所有设置都OK。

我曾经成功地报废了该网站。然后我收到“您的浏览器中未启用Javascript”错误。

如果它有助于解决问题,这是我渲染页面时的飞溅输出。

我不明白有什么问题。有什么帮助吗?

更多信息

我已经删除了虚拟机。IP地址改变了,然后我又试了一次。它第一次成功地得到了结果。但是,第二次请求它什么也得不到。我认为该网站阻止了我的 IP 地址。

0 投票
1 回答
442 浏览

scrapy - scrapy中的飞溅问题

大家好,我看到很多关于这个的问题。我知道javascript动态页面将使用scrapyjs或webdriver(如selenium或phantomjs)呈现。webdriverkit 有点慢。我希望有人在此链接中指导我

查看交易按钮之前的价格信息。我不知道要使用哪个 js 执行此操作splashscrapyjs有人可以帮助我获取此链接。

提前致谢。

编辑

根据 andres 的回复,我重新创建了 XHR 请求。当我们在浏览器窗口中输入 XHR 请求 url 时,因为它是一个 GET 方法,如果第一次点击我得到部分 json 输出。如果我们下次点击重新加载,它会加载更多看起来很奇怪的数据。任何人都可以帮助我。提前致谢

0 投票
1 回答
2412 浏览

python - 使用 scrapyjs 通过 splash 抓取 onclick 页面

我正在尝试从使用 javascript 之类的页面中获取 url

这是我使用带有splash的scrapyjs的代码

如果我写

它会起作用的

似乎我可以处理页面内的文本,但我无法从中获取 urlgo1()

如果我想获取里面的 url 我该怎么办go1()

谢谢!

0 投票
1 回答
5041 浏览

javascript - Scrapyjs + Splash 点击控制器按钮

您好,我已经安装了 Scrapyjs + Splash,我使用以下代码

到目前为止它工作正常,但现在我想在一个没有 id 也没有真正的 href 的控制器中单击“上一个”按钮。

我试过了

但都没有成功。

0 投票
2 回答
2762 浏览

python - Scrapy POST 到使用 Splash 生成的 Javascript 表单

我有以下蜘蛛,它几乎应该发布到表单。我似乎无法让它工作。当我通过 Scrapy 执行此操作时,响应永远不会显示。有人能告诉我我哪里出了问题吗?

这是我的蜘蛛代码:

我得到的是这样的回应: 未找到结果

我应该得到的是这样的结果: 找到的结果

当我dealer_search_page()用 Splash 替换 my 时:

我收到以下警告:

inspect_response()并且程序在到达我的process()函数之前退出。

该错误表明 Splash 尚不支持POST。将Splash适用于这个用例还是我应该使用Selenium

0 投票
1 回答
924 浏览

scrapy - 在没有任何yield请求的情况下,我们如何在splash + scrapyjs + scrapy的点击事件后获取html源代码?

我正在尝试使用 selenium phantomjs 将动态网站的抓取更改为 scrapyjs。但问题是如果我们在 splash 中编写一个点击事件,它需要一个 yield 请求才能工作。如果我们发出一个 yield 请求,它将呈现第一页。所以我们在源代码中看不到点击事件的变化。即,无需重新渲染网页。在硒中是可能的。飞溅中是否有任何相同的功能?

0 投票
3 回答
4183 浏览

python - ScrapyJS - 如何正确等待页面加载?

我正在使用 ScrapyJS 和 Splash 来模拟表单提交按钮单击

做完之后splash:runjs(js)我正在诉诸splash:wait(5)试图splash:wait_for_resume得到结果。这可能并不总是有效(网络延迟),那么有更好的方法吗?

0 投票
1 回答
7279 浏览

python-2.7 - 如何将 Splash 与 python 请求一起使用?

我想在请求中使用 splash ,像这样

但我有这个错误

我知道这适用于scrapy.Request但我想使用requests

0 投票
1 回答
1186 浏览

python - 使用带有scrapy和splash的javascript递归爬取同一页面

我正在抓取一个具有 javascript 的网站以转到下一页。我正在使用 splash 在第一页上执行我的 javascript 代码。但我能够进入第二页。但我无法进入 3,4,5.... 页面。仅一页后停止爬行。

我正在抓取的链接:http: //59.180.234.21:8788/user/ viewallrecord.aspx

编码:

我是scrapy和splash的新手。请温柔一点。谢谢