问题标签 [scraperwiki]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

68 问题

0 投票

1 回答

1120 浏览

sql - sqlalchemy.exc.StatementError：int() 的无效文字，刮板中的基数为 10

我编写了一个 Python 2.7 刮板，但在尝试保存我的数据时出现错误。刮板是用Scraperwiki编写的，但我认为这与我得到的错误在很大程度上无关 - 在 Scraperwiki 中保存似乎是使用 Sqlalchemy 处理的，正是这个导致了错误。

我收到此错误消息：

尝试保存这行数据时：

使用这行代码：

（在 Scraperwiki 中，使用键 'URN' 作为唯一键，将 'school' 字典中的数据保存到名为 'magic' 的数据库中。）

奇怪的是，有时刮板工作正常，我没有得到错误，但其他时候，运行相同的代码，我得到这个错误。

我尝试过的事情：

清除我要保存到的数据库，或使用不同的名称启动一个新数据库。都没有奏效。
编辑正在保存的数据。该错误是指针对键“published_recent”保存的“n/a”值存在问题。前几行数据，保存没有问题，包含布尔类型的数据，所以我认为字符串由于某种原因造成了困难。将值更改为整数意味着我没有收到此错误。现在我无法复制它（当值为整数时，保存似乎有效），但我认为当我尝试将“published_recent”值更改为数据行的整数时收到此错误这似乎给我带来了问题：sqlalchemy.exc.IntegrityError: (IntegrityError) constraint failed

无论哪种方式，这都不是真正的解决方案，因为我需要能够保存一个字符串。

阅读有关这两个错误的所有 StackOverflow 问题以及 sqlalchemy 文档。我找不到任何似乎可以解决我遇到的问题的东西。
对数据使用 Autoincrementing 键。我将数据保存在唯一的键“URN”上，但我认为刮板可能在出于某种原因保存时使用“published_recent”键作为唯一键，所以我尝试使用自动递增键，如下答案：ScraperWiki：如何使用自动增量键创建和添加记录。仍然得到同样的错误。

提前感谢您的任何答案 - 这让我有点发疯。

2015-03-11T17:45:22.343

0 投票

1 回答

692 浏览

python-2.7 - 使用 scraperwiki 获取磁盘上的 pdf 文件

我正在尝试使用 scraperwiki for pyhon 从 pdf 文档中获取一些数据。如果我像这样使用urllib2下载文件，它会很好地工作：

但棘手的部分来了。由于我想对磁盘上的大量 pdf 文件执行此操作，因此我想取消第一行并直接将 pdf 文件作为参数传递。但是，如果我尝试

我收到以下错误

我猜这是因为我没有正确打开pdf？

如果是这样，有没有办法像urllib2.urlopen()一样从磁盘打开 pdf ？

python-2.7 pdf scraperwiki

2015-05-26T16:43:07.913

0 投票

1 回答

61 浏览

python - 如何选择性地抓取具有重复类 ID 的 html

我是 python 新手，徒劳地搜索了 stackoverflow 以获得我能理解的答案。提前感谢您提供的任何帮助或建议。

我正在尝试从房屋销售网站上抓取有关价格和位置的信息，即带有“字段内容”标签的信息。

问题是该页面有很多“字段内容”标签，而我正在尝试的原始代码会拉出并打印出看似随机的选择。

提前感谢您的帮助。

这是我要抓取的内容：

这是我试图让它给我回价格的基本尝试。还没有走得太远，像刮除价格以外的东西并将其保存到刮板维基表还有很长的路要走！

python html xpath scraperwiki

2015-12-04T15:55:07.003

0 投票

1 回答

413 浏览

python - 我正在尝试从需要登录但未获取任何数据的站点中抓取 HTML

我正在关注本教程，但在运行 python 时似乎无法获取任何数据。我得到一个 200 的 HTTP 状态代码并status.ok返回一个真值。任何帮助都会很棒。这就是我在终端中的响应：

python html python-requests lxml scraperwiki

2016-05-11T21:34:08.197

0 投票

2 回答

2286 浏览

python - TypeError：必须可转换为缓冲区，而不是 ResultSet

我正在尝试使用scraperwiki和bs4将 PDF 转换为文本文件。我得到一个TypeError. 我是 Python 的新手，非常感谢一些帮助。

这里发生错误：

这是我的代码：

python bs4 scraperwiki

2016-05-16T10:07:21.677

0 投票

1 回答

616 浏览

powershell - 使用 Invoke-WebRequest 进行抓取

我们正在将一个 asp.net 内部网迁移到 SharePoint 并通过 PowerShell 自动转换。

我们只想从类名“topnav”的 DIV 标记中删除链接。并非页面上的所有链接

这为我们提供了topnav的 HTML ，但是如何最好地从 Applications 节点中提取应用程序链接？我们不想要 HOME 或 Documents 节点？

powershell scraperwiki

2016-05-17T23:47:04.013

0 投票

0 回答

179 浏览

curl - wget 没有扩展名

我正在从 CDC 下载数据。我想从给定目录下载所有 .txt 文件。此代码适用于 2017 年，因为所有下载链接都以 .txt 结尾。在 2016 年，所有链接都下载到 .txt（如果您手动单击），但链接地址中没有此类扩展名。我也尝试使用 -A " Export来搜索所有 "Export Data" 链接进行下载，但这没有奏效。我将不胜感激！

wget -A txt -m -p -E -k -K -np https://wonder.cdc.gov/nndss/nndss_weekly_tables_menu.asp?mmwr_year=2016&mmwr_week=01 '

curl wget scraperwiki

2018-07-21T00:16:49.137

0 投票

0 回答

25 浏览

python - 我只使用 BeautifulSoup 抓取每个页面的第一个元素，我的目标是抓取页面内的所有元素，我做错了什么？

感谢您花时间帮助我，我正在尝试抓取网站每个页面中所有人的公开联系信息，因此我构建了 3 个功能，一个用于修改 URL，一个用于从中提取源代码使用 BeautifulSoup 和 one 对其进行转换，最后得到名称、标题、电子邮件、个人网站和简历，但由于某种我不知道的原因，我只取回每个页面的第一个元素，它确实涵盖了全部页面数量，但它只抓取第一个人。

这是我在该部分中编写代码的方式，如果您能给我一些提示或发现我正在做的错误，我将不胜感激:)

python web-scraping beautifulsoup scraperwiki web-scraping-language

2022-01-28T00:07:17.480

1 2 3 4 5 6 7 8 9 10

问题标签 [scraperwiki]

Reference