问题标签 [scraperwiki]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
109 浏览

python - 为什么 scraperwiki 会从抓取的 html 中省略行?

我在 scraperwiki 上有一个非常简单的 python 脚本:

我还没有写任何东西来解析它......现在我只想要html。

当我在编辑模式下运行它时,它工作得很好。

当计划的抓取运行(或我手动运行它)时,它会省略数十行(甚至数百行)。

这是一个非常小的网页,因此数据过载应该不是问题。有任何想法吗?

0 投票
1 回答
1537 浏览

python - 我可以在本地安装“scraperwiki”库吗?

python 模块是否scraperwiki可以安装在 Scraperwiki.com Web 界面之外?看起来源代码可用,但未打包。

0 投票
2 回答
557 浏览

validation - 为什么我的 KML 提要不再适用于 Google 地图?

我真的很困惑。

我在https://views.scraperwiki.com/run/hackney_council_planning_kml_output/有一个 KML 提要?

...直到几周前,它在谷歌地图上运行得非常好:

http://maps.google.com/maps?q=https://views.scraperwiki.com/run/hackney_council_planning_kml_output/

现在它给了我一个“找不到文件”错误。提要验证良好:

http://feedvalidator.org/check.cgi?url=http%3A%2F%2Fviews.scraperwiki.com%2Frun%2Fhackney_council_planning_kml_output%2F

...任何想法可能导致这不起作用?

非常感谢!

0 投票
1 回答
574 浏览

python - ScraperWiki/Python:当属性为假时过滤掉记录


我在 ScraperWiki 上使用以下代码在 Twitter 上搜索特定的主题标签。
它工作得很好,并且正在挑选推文中提供的任何邮政编码(如果没有可用的,则返回false )。这是通过 line 实现的data['location'] = scraperwiki.geo.extract_gb_postcode(result['text'])
但我对包含邮政编码信息的推文感兴趣(这是因为它们将在稍后阶段被添加到谷歌地图中)。
最简单的方法是什么?我对 PHP 比较熟悉,但 Python 对我来说是一个全新的领域。在此先感谢您的帮助。
最好的祝愿,
马丁

0 投票
1 回答
291 浏览

python - 在 scraperwiki 上保存和恢复 - CPU 时间

这是我第一次这样做,所以我最好提前为我的菜鸟错误道歉。我正在尝试通过在该州内搜索名字和姓氏来抓取 legacy.com 的第一页结果。我是编程新手,正在使用 scraperwiki 来编写代码。它起作用了,但是在 10,000 个 ish 查询有时间处理之前很久,我的 cpu 时间就用完了。现在我正在尝试保存进度,在时间不足时捕捉,然后从中断的地方继续。

我无法保存工作,其他部分的任何帮助也将不胜感激。到目前为止,我只是在抓取链接,但如果有一种方法可以保存链接页面的主要内容,那也会很有帮助。

这是我的代码:

0 投票
2 回答
528 浏览

python-2.7 - Scraperwiki 抓取查询:使用 lxml 提取链接

我怀疑这是一个微不足道的查询,但希望有人可以帮助我解决我在尝试构建的刮板中使用 lxml 的查询。

https://scraperwiki.com/scrapers/thisisscraper/

我正在逐行阅读教程 3,到目前为止,我一直在尝试提取下一页链接。我可以使用 cssselect 来识别链接,但我不知道如何仅隔离 href 属性而不是整个锚标记。

任何人都可以帮忙吗?

0 投票
1 回答
69 浏览

javascript - sqlite 查询返回错误 - 无法找出原因

不确定这是 sqlite 中自定义函数的副作用,但我试图使用查询来支持表单。(这是一个粗略的演示http://www.thisistaffordshire.co.uk/images/localpeople/ugc-images/275796/binaries/GPformMap4.html

一个小问题是,如果我使用使用某些术语的查询,查询会返回数据:

https://api.scraperwiki.com/api/1.0/datastore/sqlite?format=htmltable&name=geoutil&apikey=a083014f-1103-47ee-86aa-e30db4aa4762&query=select%20distance(Latitude%2C%20Longitude%2C%2052.951458%2C% 20-2.032748)%20as%20distance%2C%20*%20from%20%60swdata%60%20where%20electronic_prescription%20%3D%20%22Yes%22%20and%20early_appointments%20like%20%22%258%25% 22%20order%20by%20distance%20asc%20limit%2010

但其他不包括electronic_prescription 标签的人不这样做并返回以下错误:

{u'error': u'sqliteexecute: sqlite3.Error: 用户定义函数引发异常'}

https://api.scraperwiki.com/api/1.0/datastore/sqlite?format=htmltable&name=geoutil&apikey=a083014f-1103-47ee-86aa-e30db4aa4762&query=select%20distance%28Latitude%2C%20Longitude%2C%2052.951458%2C% 20-2.032748%29%20as%20distance%2C%20*%20from%20%60swdata%60%20where%20early_appointments%20like%20%22%258%25%22%20order%20by%20distance%20asc%20limit%2010

我认为问题归结为使用自定义函数返回基于两个纬度/经度定义点的距离的错误。

我做错了什么?更重要的是,它容易修复吗?

0 投票
1 回答
135 浏览

php - ScraperWiki:如何保存 html,使其只加载一次

当我执行刮板时,它使用此方法加载 url:

所以每次我向爬虫添加新代码并想尝试它时,它都会再次加载 html,这需要相当长的时间。

无论如何要保存 $html 所以它只在第一次加载?

0 投票
1 回答
294 浏览

scraperwiki - ScraperWiki:simple_html_dom 库

我想知道 ScraperWiki 的 simple_html_dom 库是否:

与此相同或使用相同的方法:

PHP 简单的 HTML DOM 解析器

我想知道这一点,因为这将是一种在本地尝试 ScraperWiki 刮板的简单方法。

0 投票
3 回答
455 浏览

python - bs4 文档有什么问题?我无法运行 unwrap() 示例代码

我试图从这样的页面中删除一些繁琐的文本。我想保留锚定链接但丢失中断和 a.intro。我以为我可以使用unwrap()之类的东西来剥离图层,但出现错误:TypeError: 'NoneType' object is not callable

为了好玩,我尝试运行文档示例代码本身,因为我看不出我的版本有何不同。

我得到了完全相同的错误。我在这里想念什么?我在 Scraperwiki 工作,fwiw。