问题标签 [scraperwiki]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

68 问题

0 投票

1 回答

479 浏览

python - 使用 ScraperWiki 抓取 PDF 并获得未定义的错误

我正在尝试使用 ScraperWiki 抓取此 PDF。当前代码给我一个错误，名称为“数据”未定义，但我收到错误

如果我将该行注释掉，我的 else 语句也会出现同样的错误。

这是我的代码

我究竟做错了什么？

任何更好的解决方案的建议也将不胜感激。

2014-03-31T05:31:19.593

0 投票

1 回答

143 浏览

python - 如何将此数据添加到 scraperwiki 中的数据库

现在我想知道如何将这些数据保存在scraperwiki. 我尝试了一些命令，例如

但是当我检查数据集时，他们没有给我所需的结果，代码或最后一条语句是否有问题。请帮忙。Python 编程和 Scraperwiki 的新手。

python pdf screen-scraping scraperwiki

2014-05-07T08:51:20.610

0 投票

1 回答

345 浏览

python - 抓取代码的性能优化

我正在研究大数据的网络抓取，所以我编写了以下代码来从我们校园的本地服务器获取一些信息。它工作正常，但我认为性能很慢；每条记录需要 0.91 秒才能存储到数据库中。代码所做的是打开一个网页，获取一些内容并将其存储在磁盘上。

我的目标是将抓取记录所用的时间降低到接近 0.4 秒（或更少，如果可能的话）。

python web-scraping scraperwiki

2014-05-11T09:28:10.113

0 投票

1 回答

519 浏览

python-2.7 - Scraperwiki - python - 跳过表格行

我正在尝试抓取一个使用 TH 作为前导列元素并带有以下 TD 标记的表。问题是该表使用了需要跳过的间歇性分隔符，因为它们不包含 TH 标记。

这是表格中的一个示例：

我在 scraperwiki 中使用 python 来收集数据，但我在跳过有问题的行时遇到问题。

在没有任何条件的情况下，一旦我到达没有 TH 标记的行，我的代码就会停止，所以我目前正在使用 if 语句来确保我只在没有不间断空格的行上执行抓取，但我的变量（数据) 没有被定义，所以 if 语句没有正确执行。

这是我在教程之外的第一次编码，所以我希望答案很简单，我只是不确定它是什么。

python-2.7 web-scraping scraperwiki

2014-05-14T22:10:05.763

0 投票

1 回答

813 浏览

python - 为 Python 安装 Scraperwiki 会生成错误 pdftohtml not found

我一直在尝试为 Python 安装 Scraperwiki 模块。但是，它会产生错误：

""用户警告：本地 Scraperlibs 需要 pdftohtml，但在 PATH 中找不到 pdftohtml。您可能需要安装它”。

我查看了 poppler，因为他们有 pdftohtml 文件，但我不知道它是如何工作的 - 是否需要安装 python 库或 .exe 文件。以及我该如何安装它。在 Windows 上运行。

非常感谢

python poppler scraperwiki pdf-to-html

2014-05-15T09:56:02.187

0 投票

2 回答

474 浏览

django - lxml 不适用于 django，scraperwiki

我正在开发一个 django 应用程序，该应用程序通过伊利诺伊州的 General Assembly 网站来抓取一些 pdf。虽然部署在我的桌面上，但它工作正常，直到 urllib2 超时。当我尝试在我的 Bluehost 服务器上部署时，代码的 lxml 部分会引发错误。任何帮助，将不胜感激。

编辑 1 这是错误跟踪

django lxml scraperwiki

2014-06-03T01:59:59.973

0 投票

1 回答

67 浏览

ruby - 未找到 scraperwiki.sqlite 表

我有一个使用scraperwikigem 的 Ruby 脚本。在此脚本的目录中，有一个名为scraperwiki.sqlite.

但是，当我运行它时，我得到了一个错误：

ruby sqlite gem scraperwiki

2014-09-09T19:05:21.713

0 投票

1 回答

74 浏览

python - Scraperwiki Python 循环问题

我正在使用 Python 通过 ScraperWiki 创建一个刮板，但我得到的结果有问题。我的代码基于 ScraperWiki 文档上的基本示例，一切看起来都非常相似，所以我不确定我的问题出在哪里。对于我的结果，我获得了页面上的第一个文档标题/URL，但循环似乎存在问题，因为它不会返回该文档之后的剩余文档。任何建议表示赞赏！

python web-scraping css-selectors lxml scraperwiki

2014-09-29T21:36:51.183

0 投票

0 回答

445 浏览

python - 使用 scraperwiki 抓取维基百科的信息框部分会出错

我是scraperwiki的新手。我正在尝试使用scraperwiki从 wiki 页面获取信息框。我得到了 scraperwiki 从下面的链接抓取 wiki 页面的想法

https://blog.scraperwiki.com/2011/12/how-to-scrape-and-parse-wikipedia/

代码

错误

python wikipedia scraperwiki

2015-01-27T12:02:49.713

0 投票

2 回答

306 浏览

pdf - 从PDF中提取表格的问题

我知道关于这个主题有几个线程，但他们的解决方案似乎都不适合我。我在PDF 文档中有一个表格，我希望能够从中提取信息。我可以将文本复制并粘贴到 textedit 中，它清晰易读但并不真正可用。我的意思是所有文本都是可读的，但数据都由空格分隔，无法区分单元格内文本中的列和空格。

但每当我尝试使用 tabula 或 scraper wiki 之类的工具时，提取的文本都是垃圾。

有没有人能给我任何关于我如何解决这个问题的指示？

pdf web-scraping scraperwiki tabula

2015-03-03T09:18:17.643

1 2 3 4 5 6 7 8 9 10

问题标签 [scraperwiki]

Reference