“scraperwiki”的相关标签问题

0 投票

1 回答

505 浏览

asp.net - 为什么这个 ASPX 站点的 ScraperWiki 只返回相同页面的搜索结果？

我正在尝试使用 ScraperWiki 的工具抓取一个由 ASP 提供支持的站点。

我想从 BBSmates.com 网站获取特定区号中的 BBS 列表。该站点一次显示 20 个 BBS 搜索结果，因此我必须提交表单才能从一页结果移动到下一页。

这篇博文帮助我入门。我认为下面的代码会抓取 314 区号的 BBS 列表的最后一页（第 79 页）。

但是，我得到的响应是第一页。

我上面引用的博客文章提到，在他们的情况下，SubmitControl存在问题，因此我尝试禁用此表单上的两个 SubmitControls。

禁用 cmdLogin 生成 HTTP 错误 500。

禁用 ContentPlaceHolder1$Button1 没有任何区别。提交通过了，但是它返回的页面仍然是搜索结果的第 1 页。

值得注意的是，该站点不使用“Page$Next”。

谁能帮我弄清楚我需要做什么才能让 ASPX 表单提交工作？

2012-10-29T01:45:24.977

0 投票

0 回答

626 浏览

python - ASPX 请求浏览器登录模拟

我正在尝试在 aspx 网页上发帖。我已成功完成登录并尝试获取页面内容但没有运气。

登录页面后转到redirecttmp.aspx，然后它会向您显示主页。

我的代码当前登录并显示 tmp.aspx。我想要的是显示真实页面的脚本。

所以当前流程 login->tmp(display) 我要的流程 login->tmp->default(display)

请指教？谢谢

tmp.aspx 源代码。（这是我执行脚本时显示的内容）

python mechanize lxml python-requests scraperwiki

2012-11-01T00:44:47.130

0 投票

5 回答

3115 浏览

python - 捕获错误并继续循环的pythonic方法是什么？

我有两个可以正常工作的函数，但是当我将它们嵌套在一起运行时似乎崩溃了。

我正在尝试系统地抓取一些搜索结果。因此get_all_pages()，为字母表中的每个字母创建一个 URL 列表。有时有数千页，但效果很好。然后，对于每一页，scrape_table只抓取我感兴趣的表格。这也很好。我可以运行整个程序并且运行良好，但我在 Scraperwiki 工作，如果我将其设置为运行并离开，它总是会给我一个“列表索引超出范围”错误。这绝对是 scraperwiki 中的一个问题，但我想通过添加一些try/except子句并在遇到错误时记录错误来找到解决问题的方法。就像是：

不过，我无法弄清楚如何一般地记录错误。此外，上面的代码看起来很笨拙，根据我的经验，当某些东西看起来很笨拙时，Python 有更好的方法。有没有更好的办法？

python error-handling scraperwiki

2012-11-25T19:34:36.327

0 投票

2 回答

16159 浏览

python - Scraperwiki + lxml。如何获取具有类的元素的子元素的 href 属性？

在 URL 中包含“alpha”的链接上有许多链接（hrefs），我想从 20 个不同的页面收集这些链接并粘贴到一般 url 的末尾（倒数第二行）。href 可以在一个表中找到，其中 td 的类是 mys-elastic mys-left ，而 a 显然是包含 href 属性的元素。任何帮助将不胜感激，因为我已经为此工作了大约一周。

python web-scraping lxml scraperwiki

2013-01-02T09:30:31.137

0 投票

1 回答

225 浏览

python - 如何让 selenium 在 scraperwiki 上工作

我喜欢 selenium，也喜欢 scraperwiki，但不知怎的，我无法让它们一起正常工作。我尝试在 scraperwiki 上使用 selenium 以两种方式打开网站，这两种方法都是从教程中获得的：

这不起作用。它给了我以下错误：

这也不是：

这给出了另一个错误：

有人认为这是合乎逻辑的原因吗？

scraperwiki 上的文档表明，硒“只有在您有 Selenium 服务器指向时才在 ScraperWiki 中有用。” 我不知道他们对此的确切含义，但我认为这可能是问题的原因。任何帮助将不胜感激。

python parsing selenium urllib2 scraperwiki

2013-01-11T17:39:05.620

0 投票

1 回答

1043 浏览

python - Python 刮板（Scraperwiki）只拿到了一半的表

我正在学习如何在 Scraperwiki 中使用 Python 编写爬虫。到目前为止一切都很好，但是我花了几天的时间来解决一个我无法解决的问题。我正在尝试从表中获取所有链接。它可以工作，但从 001 到 486 的链接列表中，它只会在 045 处开始抓取它们。 url/source 只是网站上的城市列表，来源可以在这里看到：
http://www .tripadvisor.co.uk/pages/by_city.html和具体的 html 从这里开始：

我所追求的是从“by_city_001.html”到“by_city_486.html”的链接。这是我的代码：

在代码中调用如下：

现在，当我运行它时，它只会返回从 0045 开始的链接！

输出（045~486）

我尝试将选择器更改为：

它像这样抓取 487 个“元素”：

但我无法从中获得“href”值。当我在 cssselect 行中选择“a”时，我无法弄清楚为什么它会丢失前 44 个链接。我看过代码，但我不知道。

提前感谢您的帮助！

克莱尔

python web-scraping lxml scraperwiki

2013-01-29T17:32:49.080

0 投票

1 回答

246 浏览

ruby - 代理/从其他国家获取数据

某些网站要求我们有一个特定的 IP 地址来显示某些信息，例如。国家 X 的广告。我想知道是否可以在我的 ruby 脚本@scraperwiki 中使用代理（最好是 ruby 代理）来获得结果，就像我在那个国家 X 一样。现在脚本得到结果英国，如果我使用 HTTP 代理，我可以看到我想从中正确检索数据的网站。问题是 Scraperwiki 不会像在 X 国那样返回网页

ruby proxy web-scraping scraperwiki

2013-02-16T14:39:04.257

0 投票

3 回答

378 浏览