问题标签 [scraperwiki]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
asp.net - 为什么这个 ASPX 站点的 ScraperWiki 只返回相同页面的搜索结果?
我正在尝试使用 ScraperWiki 的工具抓取一个由 ASP 提供支持的站点。
我想从 BBSmates.com 网站获取特定区号中的 BBS 列表。该站点一次显示 20 个 BBS 搜索结果,因此我必须提交表单才能从一页结果移动到下一页。
这篇博文帮助我入门。我认为下面的代码会抓取 314 区号的 BBS 列表的最后一页(第 79 页)。
但是,我得到的响应是第一页。
我上面引用的博客文章提到,在他们的情况下,SubmitControl存在问题,因此我尝试禁用此表单上的两个 SubmitControls。
禁用 cmdLogin 生成 HTTP 错误 500。
禁用 ContentPlaceHolder1$Button1 没有任何区别。提交通过了,但是它返回的页面仍然是搜索结果的第 1 页。
值得注意的是,该站点不使用“Page$Next”。
谁能帮我弄清楚我需要做什么才能让 ASPX 表单提交工作?
python - ASPX 请求浏览器登录模拟
我正在尝试在 aspx 网页上发帖。我已成功完成登录并尝试获取页面内容但没有运气。
登录页面后转到redirect
tmp.aspx,然后它会向您显示主页。
我的代码当前登录并显示 tmp.aspx。我想要的是显示真实页面的脚本。
所以当前流程 login->tmp(display) 我要的流程 login->tmp->default(display)
请指教?谢谢
tmp.aspx 源代码。(这是我执行脚本时显示的内容)
python - 捕获错误并继续循环的pythonic方法是什么?
我有两个可以正常工作的函数,但是当我将它们嵌套在一起运行时似乎崩溃了。
我正在尝试系统地抓取一些搜索结果。因此get_all_pages()
,为字母表中的每个字母创建一个 URL 列表。有时有数千页,但效果很好。然后,对于每一页,scrape_table
只抓取我感兴趣的表格。这也很好。我可以运行整个程序并且运行良好,但我在 Scraperwiki 工作,如果我将其设置为运行并离开,它总是会给我一个“列表索引超出范围”错误。这绝对是 scraperwiki 中的一个问题,但我想通过添加一些try/except
子句并在遇到错误时记录错误来找到解决问题的方法。就像是:
不过,我无法弄清楚如何一般地记录错误。此外,上面的代码看起来很笨拙,根据我的经验,当某些东西看起来很笨拙时,Python 有更好的方法。有没有更好的办法?
python - Scraperwiki + lxml。如何获取具有类的元素的子元素的 href 属性?
在 URL 中包含“alpha”的链接上有许多链接(hrefs),我想从 20 个不同的页面收集这些链接并粘贴到一般 url 的末尾(倒数第二行)。href 可以在一个表中找到,其中 td 的类是 mys-elastic mys-left ,而 a 显然是包含 href 属性的元素。任何帮助将不胜感激,因为我已经为此工作了大约一周。
python - 如何让 selenium 在 scraperwiki 上工作
我喜欢 selenium,也喜欢 scraperwiki,但不知怎的,我无法让它们一起正常工作。我尝试在 scraperwiki 上使用 selenium 以两种方式打开网站,这两种方法都是从教程中获得的:
这不起作用。它给了我以下错误:
这也不是:
这给出了另一个错误:
有人认为这是合乎逻辑的原因吗?
scraperwiki 上的文档表明,硒“只有在您有 Selenium 服务器指向时才在 ScraperWiki 中有用。” 我不知道他们对此的确切含义,但我认为这可能是问题的原因。任何帮助将不胜感激。
python - Python 刮板(Scraperwiki)只拿到了一半的表
我正在学习如何在 Scraperwiki 中使用 Python 编写爬虫。到目前为止一切都很好,但是我花了几天的时间来解决一个我无法解决的问题。我正在尝试从表中获取所有链接。它可以工作,但从 001 到 486 的链接列表中,它只会在 045 处开始抓取它们。 url/source 只是网站上的城市列表,来源可以在这里看到:
http://www .tripadvisor.co.uk/pages/by_city.html和具体的 html 从这里开始:
我所追求的是从“by_city_001.html”到“by_city_486.html”的链接。这是我的代码:
在代码中调用如下:
现在,当我运行它时,它只会返回从 0045 开始的链接!
输出(045~486)
我尝试将选择器更改为:
它像这样抓取 487 个“元素”:
但我无法从中获得“href”值。当我在 cssselect 行中选择“a”时,我无法弄清楚为什么它会丢失前 44 个链接。我看过代码,但我不知道。
提前感谢您的帮助!
克莱尔
ruby - 代理/从其他国家获取数据
某些网站要求我们有一个特定的 IP 地址来显示某些信息,例如。国家 X 的广告。我想知道是否可以在我的 ruby 脚本@scraperwiki 中使用代理(最好是 ruby 代理)来获得结果,就像我在那个国家 X 一样。现在脚本得到结果英国,如果我使用 HTTP 代理,我可以看到我想从中正确检索数据的网站。问题是 Scraperwiki 不会像在 X 国那样返回网页
php - 刮板功能中的PHP变量
我正在使用 ScraperWiki 构建一个简单的屏幕抓取工具,从在线商店获取链接。商店有多个页面,所以我想从第一页获取所有链接,在寻呼机中找到“下一步”按钮,转到该 url,从那里找到所有链接,转到下一页,依此类推等等。
这就是我所在的地方。ScraperWiki 使用简单的 HTML DOM 和 CSS 选择器:
该getLinks()
函数在不在函数中时工作正常,但是当我将它们放入函数时出现“未声明的变量”错误。我的问题是:
在 PHP 中,我可以像在 Javascript 中那样声明要在整个脚本中使用的空变量/数组吗?我在 Stack 上阅读了一些答案,这似乎暗示不需要声明,这似乎很奇怪。
php - PHP FOR 循环在 2 次循环后停止,退出状态 139
我正在用 Scraper Wiki 构建一个刮板,这里:https ://scraperwiki.com/scrapers/fashfinder/edit/#
为了不让你厌烦太多细节,我将大约 120 个链接加载到一个数组 $allLinks 中。然后,在页面底部,我在数组上调用 FOR 循环,如下所示:
getInfo() 是一个从提供的链接获取产品信息的函数。该函数适用于 $i = 0 和 $i = 1。然后,当 $i = 2 发生故障时 - 源被加载到刮板中,整个过程停止。没有错误,但它显示“退出状态 139”。
我尝试反转 $allLinks 数组,$allLinks = array_reverse($allLinks);
但发生了完全相同的事情 - 它刮了 2 页,到了第 3 页,然后突然停止了。
关于这里出了什么问题的任何想法?找不到关于“EXIT STATUS 139”含义的太多信息,尤其是关于 scraperwiki 的信息!
php - scraperwiki:为什么我的刮刀适用于 1 个 url 而不是另一个?
这是我的第一个刮刀https://scraperwiki.com/scrapers/my_first_scraper_1/
我设法刮掉了 google.com,但没有刮掉这个页面。
http://subeta.net/pet_extra.php?act=read&petid=1014561
有什么理由吗?
我已按照此处的文档进行操作。
https://scraperwiki.com/docs/php/php_intro_tutorial/
代码没有理由不工作。