问题标签 [scraperwiki]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 为什么 scraperwiki 会从抓取的 html 中省略行?
我在 scraperwiki 上有一个非常简单的 python 脚本:
我还没有写任何东西来解析它......现在我只想要html。
当我在编辑模式下运行它时,它工作得很好。
当计划的抓取运行(或我手动运行它)时,它会省略数十行(甚至数百行)。
这是一个非常小的网页,因此数据过载应该不是问题。有任何想法吗?
python - 我可以在本地安装“scraperwiki”库吗?
python 模块是否scraperwiki
可以安装在 Scraperwiki.com Web 界面之外?看起来源代码可用,但未打包。
validation - 为什么我的 KML 提要不再适用于 Google 地图?
我真的很困惑。
我在https://views.scraperwiki.com/run/hackney_council_planning_kml_output/有一个 KML 提要?
...直到几周前,它在谷歌地图上运行得非常好:
http://maps.google.com/maps?q=https://views.scraperwiki.com/run/hackney_council_planning_kml_output/?
现在它给了我一个“找不到文件”错误。提要验证良好:
...任何想法可能导致这不起作用?
非常感谢!
python - ScraperWiki/Python:当属性为假时过滤掉记录
我在 ScraperWiki 上使用以下代码在 Twitter 上搜索特定的主题标签。
它工作得很好,并且正在挑选推文中提供的任何邮政编码(如果没有可用的,则返回false )。这是通过 line 实现的data['location'] = scraperwiki.geo.extract_gb_postcode(result['text'])
。
但我只对包含邮政编码信息的推文感兴趣(这是因为它们将在稍后阶段被添加到谷歌地图中)。
最简单的方法是什么?我对 PHP 比较熟悉,但 Python 对我来说是一个全新的领域。在此先感谢您的帮助。
最好的祝愿,
马丁
python - 在 scraperwiki 上保存和恢复 - CPU 时间
这是我第一次这样做,所以我最好提前为我的菜鸟错误道歉。我正在尝试通过在该州内搜索名字和姓氏来抓取 legacy.com 的第一页结果。我是编程新手,正在使用 scraperwiki 来编写代码。它起作用了,但是在 10,000 个 ish 查询有时间处理之前很久,我的 cpu 时间就用完了。现在我正在尝试保存进度,在时间不足时捕捉,然后从中断的地方继续。
我无法保存工作,其他部分的任何帮助也将不胜感激。到目前为止,我只是在抓取链接,但如果有一种方法可以保存链接页面的主要内容,那也会很有帮助。
这是我的代码:
python-2.7 - Scraperwiki 抓取查询:使用 lxml 提取链接
我怀疑这是一个微不足道的查询,但希望有人可以帮助我解决我在尝试构建的刮板中使用 lxml 的查询。
https://scraperwiki.com/scrapers/thisisscraper/
我正在逐行阅读教程 3,到目前为止,我一直在尝试提取下一页链接。我可以使用 cssselect 来识别链接,但我不知道如何仅隔离 href 属性而不是整个锚标记。
任何人都可以帮忙吗?
javascript - sqlite 查询返回错误 - 无法找出原因
不确定这是 sqlite 中自定义函数的副作用,但我试图使用查询来支持表单。(这是一个粗略的演示http://www.thisistaffordshire.co.uk/images/localpeople/ugc-images/275796/binaries/GPformMap4.html)
一个小问题是,如果我使用使用某些术语的查询,查询会返回数据:
但其他不包括electronic_prescription 标签的人不这样做并返回以下错误:
{u'error': u'sqliteexecute: sqlite3.Error: 用户定义函数引发异常'}
我认为问题归结为使用自定义函数返回基于两个纬度/经度定义点的距离的错误。
我做错了什么?更重要的是,它容易修复吗?
php - ScraperWiki:如何保存 html,使其只加载一次
当我执行刮板时,它使用此方法加载 url:
所以每次我向爬虫添加新代码并想尝试它时,它都会再次加载 html,这需要相当长的时间。
无论如何要保存 $html 所以它只在第一次加载?
scraperwiki - ScraperWiki:simple_html_dom 库
我想知道 ScraperWiki 的 simple_html_dom 库是否:
与此相同或使用相同的方法:
我想知道这一点,因为这将是一种在本地尝试 ScraperWiki 刮板的简单方法。