问题标签 [scraperwiki]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

68 问题

0 投票

1 回答

463 浏览

python - ScraperWiki 数据存储期望什么编码？

在ScraperWiki上编写爬虫时，我在尝试保存 UTF8 编码的字符串时反复收到此消息：

我最终通过试验和 UnicodeDecodeError 发现 ScraperWiki 数据存储似乎需要 Unicode。

所以我现在从 UTF-8 解码，并在保存到数据存储之前立即将所有内容转换为 Unicode：

这避免了错误，但它是否明智？谁能确认 ScraperWiki 数据存储支持什么编码？

谢谢！

python screen-scraping scraperwiki

2011-02-13T14:34:38.153

0 投票

3 回答

7761 浏览

python - 使用 lxml 解析 RSS 时出现编码错误

我想用lxml解析下载的RSS，但不知道如何处理UnicodeDecodeError？

但我收到一个错误：

python rss lxml scraperwiki chardet

2011-04-27T23:44:11.650

0 投票

1 回答

369 浏览

screen-scraping - ScraperWiki 是否会限制它正在抓取的网站？

ScraperWiki 是否会以某种方式自动限制抓取，或者我应该在循环中添加类似 sleep(1 * random.random()) 的东西？

screen-scraping scraperwiki

2011-05-01T11:07:30.263

0 投票

1 回答

1669 浏览

screen-scraping - ScraperWiki 中的“退出状态 1”是什么意思，是否失败？

用户从爬虫运行中收到此消息。

什么是“退出状态 1”？这是成功还是失败？如果
失败，是否有日志文件？

screen-scraping scraperwiki

2011-05-06T01:37:36.387

0 投票

1 回答

333 浏览

scraperwiki - scraperwiki 如何限制执行时间？

scraperwiki 如何决定停止预定运行？它是基于实际执行时间还是 CPU 时间？或者也许是别的东西。

我抓取了一个网站，Mechanize 需要 30 秒来加载每个页面，但我使用很少的 CPU 来处理页面，所以我想知道服务器的缓慢是否是一个主要问题。

scraperwiki

2011-05-20T07:30:50.017

0 投票

2 回答

5926 浏览

asp.net - 使用 Python Mechanize 截屏 aspx - Javascript 表单提交

我正在尝试在scraperwiki上使用 Mechanize/Python ( http :// /scraperwiki.com/scrapers/food_standards_agency/）但在尝试遵循具有以下形式的“下一页”链接时遇到问题：

表单处理程序如下所示：

当我手动单击 Next 链接时，HTTP 跟踪显示 __EVENTTARGET 为空？我可以在其他刮刀上找到的所有婴儿床都显示了对 __EVENTTARGET 的操作作为处理下一页的方式。

确实，我不确定我要抓取的页面如何加载下一页？无论我向刮板扔什么，它都只能加载第一个结果页面。（即使能够更改每页的结果数量也会很有用，但我也不知道该怎么做！）

那么 - 关于如何为 N>0 抓取第 1+N 个结果页面的任何想法？

asp.net python mechanize scraperwiki

2011-05-24T19:49:55.213

0 投票

1 回答

53 浏览

scraperwiki - 有没有办法删除 scraperwiki 上的视图？

有没有办法删除 scraperwiki 上的视图？我在网站上的任何地方都找不到这样做的方法。

scraperwiki

2012-01-31T21:33:16.210

0 投票

2 回答

203 浏览

php - 将编号的成绩单解析为 XML

我想构建一个刮板，通过Leveson Inquiry的成绩单进行解析，这些成绩单的明文格式如下：

（完整示例）

最终，我想构建一个结构如下的 XML 文件：

……有什么帮助吗？

（另请注意，“MR BARR：”在某个点变成了简单的“Q.”。）

非常感谢！

php xml regex web-scraping scraperwiki

2012-02-20T19:43:55.693

0 投票

1 回答

528 浏览

sql - ScraperWiki：如何使用自动增量键创建和添加记录

有人知道如何使用代理键创建表吗？寻找类似自动增量的东西，它只是一个大整数，它会自动添加下一个最高的唯一数字作为主键。

需要知道如何创建表以及如何添加记录（最好通过scraperwiki.sqlite.save）

谢谢！

sql sqlite auto-increment scraperwiki

2012-03-01T02:39:41.737

0 投票

2 回答

191 浏览

php - 一次迭代后foreach循环死亡

我一直在尝试使用 ScraperWiki，昨天，我可以得到liDOM 中所有 s 的列表。然而，现在我只运行了一次迭代。

这是我的代码

我不是一个真正的 PHP 人，所以我可能会遗漏一些明显的东西。完整来源在https://scraperwiki.com/scrapers/days_of_the_year/

php for-loop scraper scraperwiki

2012-03-06T08:48:05.573

1 2 3 4 5 6 7 8 9 10