问题标签 [scraperwiki]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
twitter - Scraperwiki 推特查询
请原谅我,因为我对 scraperwiki 和 twitter 挖掘的了解有限。
我有以下代码来抓取 Twitter 数据。但是,我想编辑代码以仅给我在特定日期(例如,2013 年 4 月 1 日)为纽约进行地理标记的结果。你知道我应该怎么做吗?
python - Django Dynamic Scraper Project 无法在 Windows 上运行,即使它可以在 Linux 上运行
我正在尝试在动态 django scraper 中创建一个项目。我已经在 linux 上对其进行了测试,并且运行正常。当我尝试运行命令时: syndb 我收到此错误
/ * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * *** ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * * / python : WindowsError: [Error 3] 系统无法找到指定的路径:'C:\Python27\l ib\site-packages\django_dynamic_scraper-0.3.0-py2.7.egg\dynamic_scraper\migrations/。' 在 line:1 char:1 + python manage.py syncdb + ~~~~~~~~~~~~~~~~~~~~~~~ + CategoryInfo : NotSpecified: (WindowsError: [... migrations/ . ':String) [],
RemoteException + FullyQualifiedErrorId : NativeCommandError
/ * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * *** ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * ** * * / 使用命令 python manage 管理服务器正常运行。 py 运行服务器
请指导我如何消除此错误
python - 如何在 Python 和 ScraperWiki 中返回“N/A”给定的空白值
嗨:我是 Scraperwiki 和 Python 的新手,并且试图弄清楚当抓取的网页上没有符合我的 cssselect 规范的项目时如何返回“NA”或类似的东西。
在下面的代码中,我正在抓取一组双重嵌套的网页。当我抓取一个没有 cssselect 属性值的子页面时,它只是复制最后一个有值的抓取页面的值。
有小费吗?谢谢!托德
导入 scraperwiki 导入 urlparse 导入 lxml.html 导入 urllib
def scrape_table(root): rows = root.cssselect("h2")
def scrape_and_look_for_next_link(url): html = scraperwiki.scrape(url) print html root = lxml.html.fromstring(html) scrape_table(root)
从这里开始:
url = ' http://www.italaw.com/cases-by-respondent?field_case_respondent_tid=All ' scrape_and_look_for_next_link(url)
python - 如何在 Python 中刮取比第一个三重嵌套链接列表更多的实例?
我正在尝试确定记录从原始网页链接的网页链接的网页内容的最简单方法。我希望我的输出是一个表格,其中的行对应于第三层页面深处的内容。
从代码中可以看出,我目前只能在第三级页面上获取所需项目的第一个实例。此外,虽然我当前的代码将返回与基本 URL 上的每个 h2 项目相对应的一行,但我希望每个 h2 项目有多行(与 "span.'case-doc-details' a" 的实例一样多)第二层)。
一些附加信息:在每个链接状态下,我不知道将链接多少页。我正在使用 Python 和 Scraperwiki,对两者都是新手。我试图研究这个问题,但在我知道要问什么方面遇到了障碍。提前感谢您的帮助。
python - 如何在这个爬虫程序中使用 lxml 提取文本?
我正在尝试从此页面上的特定元素中抓取文本数据(使用 scraperwiki)
scraperwiki 控制台返回:
我使用 Google Chrome 查找 XPath,但我假设 requests 使用与 chrome 相同的标准
python - Scraperwiki:如何将数据保存到表格的一个单元格中
这是我从该特定页面提取 URL 和相应评论的刮板代码:
当数据被保存到 scraperwiki 数据存储时,只有来自一个 URL 的最后一条评论被放入表中。我想要的是在每个 URL 的表格中保存所有评论。因此,在一列中有 URL,在第二列中有来自该 URL 的所有评论,而不仅仅是最后一条评论,这就是这段代码的最终结果。
python - 在 scraperwiki 中导入 python 库时出错
我正在使用 scraperwiki 在 Python 中运行一些代码。但是,当我运行此代码时,我收到此错误:
Traceback(最近一次调用最后一次):文件“./code/scraper”,第 4 行,在 from scrapemark import scrape ImportError: No module named scrapemark
这是代码:
谁能告诉我如何解决这个问题?
windows - 如何在 Windows 上安装 Poppler?
ScraperWiki的最新版本依赖于Poppler(或者 GitHub 是这么说的)。不幸的是,它只指定了如何在 macOS 和 Linux 上获取它,而不是 Windows。
快速谷歌搜索没有什么太有希望的。有谁知道如何在 Windows 上为 ScraperWiki 获取 Poppler?
javascript - ScraperWiki 抓取频率
这可能是一个愚蠢的问题,但我目前正在使用 Scraperwiki 抓取 twitter。Tho ScraperWiki 的运行频率相当低。有没有办法强制运行 ScraperWiki 在不接触 python 的情况下更频繁地运行,因为我的知识仅限于 javascript。
到目前为止我的代码:
Javascript:
python - 修复 'sqlite3.InterfaceError: Error binding parameter 0 - 可能是不受支持的类型。尝试转换类型或酸洗。
我被困在 ScraperWiki 中的这个刮刀上。我只想要 dir='ltr' 的 ul 中的 li 元素中的文本。我每周运行这个脚本,句子可能彼此相似,但又是一个全新的句子。这就是为什么我想在我的数据中包含日期。
我收到以下错误:
我怎样才能让这个刮刀保存我的数据?