问题标签 [scraperwiki]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
479 浏览

python - 使用 ScraperWiki 抓取 PDF 并获得未定义的错误

我正在尝试使用 ScraperWiki 抓取此 PDF。当前代码给我一个错误,名称为“数据”未定义,但我收到错误

如果我将该行注释掉,我的 else 语句也会出现同样的错误。

这是我的代码

我究竟做错了什么?

任何更好的解决方案的建议也将不胜感激。

0 投票
1 回答
143 浏览

python - 如何将此数据添加到 scraperwiki 中的数据库

现在我想知道如何将这些数据保存在scraperwiki. 我尝试了一些命令,例如

但是当我检查数据集时,他们没有给我所需的结果,代码或最后一条语句是否有问题。请帮忙。Python 编程和 Scraperwiki 的新手。

0 投票
1 回答
345 浏览

python - 抓取代码的性能优化

我正在研究大数据的网络抓取,所以我编写了以下代码来从我们校园的本地服务器获取一些信息。它工作正常,但我认为性能很慢;每条记录需要 0.91 秒才能存储到数据库中。代码所做的是打开一个网页,获取一些内容并将其存储在磁盘上。

我的目标是将抓取记录所用的时间降低到接近 0.4 秒(或更少,如果可能的话)。

0 投票
1 回答
519 浏览

python-2.7 - Scraperwiki - python - 跳过表格行

我正在尝试抓取一个使用 TH 作为前导列元素并带有以下 TD 标记的表。问题是该表使用了需要跳过的间歇性分隔符,因为它们不包含 TH 标记。

这是表格中的一个示例:

我在 scraperwiki 中使用 python 来收集数据,但我在跳过有问题的行时遇到问题。

在没有任何条件的情况下,一旦我到达没有 TH 标记的行,我的代码就会停止,所以我目前正在使用 if 语句来确保我只在没有不间断空格的行上执行抓取,但我的变量(数据) 没有被定义,所以 if 语句没有正确执行。

这是我在教程之外的第一次编码,所以我希望答案很简单,我只是不确定它是什么。

0 投票
1 回答
813 浏览

python - 为 Python 安装 Scraperwiki 会生成错误 pdftohtml not found

我一直在尝试为 Python 安装 Scraperwiki 模块。但是,它会产生错误:

""用户警告:本地 Scraperlibs 需要 pdftohtml,但在 PATH 中找不到 pdftohtml。您可能需要安装它”

我查看了 poppler,因为他们有 pdftohtml 文件,但我不知道它是如何工作的 - 是否需要安装 python 库或 .exe 文件。以及我该如何安装它。在 Windows 上运行。

非常感谢

0 投票
2 回答
474 浏览

django - lxml 不适用于 django,scraperwiki

我正在开发一个 django 应用程序,该应用程序通过伊利诺伊州的 General Assembly 网站来抓取一些 pdf。虽然部署在我的桌面上,但它工作正常,直到 urllib2 超时。当我尝试在我的 Bluehost 服务器上部署时,代码的 lxml 部分会引发错误。任何帮助,将不胜感激。

编辑 1 这是错误跟踪

0 投票
1 回答
67 浏览

ruby - 未找到 scraperwiki.sqlite 表

我有一个使用scraperwikigem 的 Ruby 脚本。在此脚本的目录中,有一个名为scraperwiki.sqlite.

但是,当我运行它时,我得到了一个错误:

0 投票
1 回答
74 浏览

python - Scraperwiki Python 循环问题

我正在使用 Python 通过 ScraperWiki 创建一个刮板,但我得到的结果有问题。我的代码基于 ScraperWiki 文档上的基本示例,一切看起来都非常相似,所以我不确定我的问题出在哪里。对于我的结果,我获得了页面上的第一个文档标题/URL,但循环似乎存在问题,因为它不会返回该文档之后的剩余文档。任何建议表示赞赏!

0 投票
0 回答
445 浏览

python - 使用 scraperwiki 抓取维基百科的信息框部分会出错

我是scraperwiki的新手。我正在尝试使用scraperwiki从 wiki 页面获取信息。我得到了 scraperwiki 从下面的链接抓取 wiki 页面的想法

https://blog.scraperwiki.com/2011/12/how-to-scrape-and-parse-wikipedia/

代码

错误

0 投票
2 回答
306 浏览

pdf - 从PDF中提取表格的问题

我知道关于这个主题有几个线程,但他们的解决方案似乎都不适合我。我在PDF 文档中有一个表格,我希望能够从中提取信息。我可以将文本复制并粘贴到 textedit 中,它清晰易读但并不真正可用。我的意思是所有文本都是可读的,但数据都由空格分隔,无法区分单元格内文本中的列和空格。

但每当我尝试使用 tabula 或 scraper wiki 之类的工具时,提取的文本都是垃圾。

有没有人能给我任何关于我如何解决这个问题的指示?