问题标签 [scraperwiki]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ScraperWiki 数据存储期望什么编码?
在ScraperWiki上编写爬虫时,我在尝试保存 UTF8 编码的字符串时反复收到此消息:
我最终通过试验和 UnicodeDecodeError 发现 ScraperWiki 数据存储似乎需要 Unicode。
所以我现在从 UTF-8 解码,并在保存到数据存储之前立即将所有内容转换为 Unicode:
这避免了错误,但它是否明智?谁能确认 ScraperWiki 数据存储支持什么编码?
谢谢!
python - 使用 lxml 解析 RSS 时出现编码错误
我想用lxml解析下载的RSS,但不知道如何处理UnicodeDecodeError?
但我收到一个错误:
screen-scraping - ScraperWiki 是否会限制它正在抓取的网站?
ScraperWiki 是否会以某种方式自动限制抓取,或者我应该在循环中添加类似 sleep(1 * random.random()) 的东西?
screen-scraping - ScraperWiki 中的“退出状态 1”是什么意思,是否失败?
用户从爬虫运行中收到此消息。
什么是“退出状态 1”?这是成功还是失败?如果
失败,是否有日志文件?
scraperwiki - scraperwiki 如何限制执行时间?
scraperwiki 如何决定停止预定运行?它是基于实际执行时间还是 CPU 时间?或者也许是别的东西。
我抓取了一个网站,Mechanize 需要 30 秒来加载每个页面,但我使用很少的 CPU 来处理页面,所以我想知道服务器的缓慢是否是一个主要问题。
asp.net - 使用 Python Mechanize 截屏 aspx - Javascript 表单提交
我正在尝试在scraperwiki上使用 Mechanize/Python ( http :// /scraperwiki.com/scrapers/food_standards_agency/)但在尝试遵循具有以下形式的“下一页”链接时遇到问题:
表单处理程序如下所示:
当我手动单击 Next 链接时,HTTP 跟踪显示 __EVENTTARGET 为空?我可以在其他刮刀上找到的所有婴儿床都显示了对 __EVENTTARGET 的操作作为处理下一页的方式。
确实,我不确定我要抓取的页面如何加载下一页?无论我向刮板扔什么,它都只能加载第一个结果页面。(即使能够更改每页的结果数量也会很有用,但我也不知道该怎么做!)
那么 - 关于如何为 N>0 抓取第 1+N 个结果页面的任何想法?
scraperwiki - 有没有办法删除 scraperwiki 上的视图?
有没有办法删除 scraperwiki 上的视图?我在网站上的任何地方都找不到这样做的方法。
php - 将编号的成绩单解析为 XML
我想构建一个刮板,通过Leveson Inquiry的成绩单进行解析,这些成绩单的明文格式如下:
(完整示例)
最终,我想构建一个结构如下的 XML 文件:
……有什么帮助吗?
(另请注意,“MR BARR:”在某个点变成了简单的“Q.”。)
非常感谢!
sql - ScraperWiki:如何使用自动增量键创建和添加记录
有人知道如何使用代理键创建表吗?寻找类似自动增量的东西,它只是一个大整数,它会自动添加下一个最高的唯一数字作为主键。
需要知道如何创建表以及如何添加记录(最好通过scraperwiki.sqlite.save)
谢谢!
php - 一次迭代后foreach循环死亡
我一直在尝试使用 ScraperWiki,昨天,我可以得到li
DOM 中所有 s 的列表。然而,现在我只运行了一次迭代。
这是我的代码
我不是一个真正的 PHP 人,所以我可能会遗漏一些明显的东西。完整来源在https://scraperwiki.com/scrapers/days_of_the_year/