问题标签 [scraperwiki]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1120 浏览

sql - sqlalchemy.exc.StatementError:int() 的无效文字,刮板中的基数为 10

我编写了一个 Python 2.7 刮板,但在尝试保存我的数据时出现错误。刮板是用Scraperwiki编写的,但我认为这与我得到的错误在很大程度上无关 - 在 Scraperwiki 中保存似乎是使用 Sqlalchemy 处理的,正是这个导致了错误。

我收到此错误消息:

尝试保存这行数据时:

使用这行代码:

(在 Scraperwiki 中,使用键 'URN' 作为唯一键,将 'school' 字典中的数据保存到名为 'magic' 的数据库中。)

奇怪的是,有时刮板工作正常,我没有得到错误,但其他时候,运行相同的代码,我得到这个错误。

我尝试过的事情:

  1. 清除我要保存到的数据库,或使用不同的名称启动一个新数据库。都没有奏效。
  2. 编辑正在保存的数据。该错误是指针对键“published_recent”保存的“n/a”值存在问题。前几行数据,保存没有问题,包含布尔类型的数据,所以我认为字符串由于某种原因造成了困难。将值更改为整数意味着我没有收到此错误。现在我无法复制它(当值为整数时,保存似乎有效),但我认为当我尝试将“published_recent”值更改为数据行的整数时收到此错误这似乎给我带来了问题:sqlalchemy.exc.IntegrityError: (IntegrityError) constraint failed

无论哪种方式,这都不是真正的解决方案,因为我需要能够保存一个字符串。

  1. 阅读有关这两个错误的所有 StackOverflow 问题以及 sqlalchemy 文档。我找不到任何似乎可以解决我遇到的问题的东西。
  2. 对数据使用 Autoincrementing 键。我将数据保存在唯一的键“URN”上,但我认为刮板可能在出于某种原因保存时使用“published_recent”键作为唯一键,所以我尝试使用自动递增键,如下答案:ScraperWiki:如何使用自动增量键创建和添加记录。仍然得到同样的错误。

提前感谢您的任何答案 - 这让我有点发疯。

0 投票
1 回答
692 浏览

python-2.7 - 使用 scraperwiki 获取磁盘上的 pdf 文件

我正在尝试使用 scraperwiki for pyhon 从 pdf 文档中获取一些数据。如果我像这样使用urllib2下载文件,它会很好地工作:

但棘手的部分来了。由于我想对磁盘上的大量 pdf 文件执行此操作,因此我想取消第一行并直接将 pdf 文件作为参数传递。但是,如果我尝试

我收到以下错误

我猜这是因为我没有正确打开pdf?

如果是这样,有没有办法像urllib2.urlopen()一样从磁盘打开 pdf ?

0 投票
1 回答
61 浏览

python - 如何选择性地抓取具有重复类 ID 的 html

我是 python 新手,徒劳地搜索了 stackoverflow 以获得我能理解的答案。提前感谢您提供的任何帮助或建议。

我正在尝试从房屋销售网站上抓取有关价格和位置的信息,即带有“字段内容”标签的信息。

问题是该页面有很多“字段内容”标签,而我正在尝试的原始代码会拉出并打印出看似随机的选择。

提前感谢您的帮助。

这是我要抓取的内容:

这是我试图让它给我回价格的基本尝试。还没有走得太远,像刮除价格以外的东西并将其保存到刮板维基表还有很长的路要走!

0 投票
1 回答
413 浏览

python - 我正在尝试从需要登录但未获取任何数据的站点中抓取 HTML

我正在关注本教程,但在运行 python 时似乎无法获取任何数据。我得到一个 200 的 HTTP 状态代码并status.ok返回一个真值。任何帮助都会很棒。这就是我在终端中的响应:

0 投票
2 回答
2286 浏览

python - TypeError:必须可转换为缓冲区,而不是 ResultSet

我正在尝试使用scraperwikibs4将 PDF 转换为文本文件。我得到一个TypeError. 我是 Python 的新手,非常感谢一些帮助。

这里发生错误:

这是我的代码:

0 投票
1 回答
616 浏览

powershell - 使用 Invoke-WebRequest 进行抓取

我们正在将一个 asp.net 内部网迁移到 SharePoint 并通过 PowerShell 自动转换。

我们只想从类名“topnav”的 DIV 标记中删除链接。并非页面上的所有链接

这为我们提供了topnav的 HTML ,但是如何最好地从 Applications 节点中提取应用程序链接?我们不想要 HOME 或 Documents 节点?

0 投票
0 回答
179 浏览

curl - wget 没有扩展名

我正在从 CDC 下载数据。我想从给定目录下载所有 .txt 文件。此代码适用于 2017 年,因为所有下载链接都以 .txt 结尾。在 2016 年,所有链接都下载到 .txt(如果您手动单击),但链接地址中没有此类扩展名。我也尝试使用 -A " Export来搜索所有 "Export Data" 链接进行下载,但这没有奏效。我将不胜感激!

wget -A txt -m -p -E -k -K -np https://wonder.cdc.gov/nndss/nndss_weekly_tables_menu.asp?mmwr_year=2016&mmwr_week=01 '

0 投票
0 回答
25 浏览

python - 我只使用 BeautifulSoup 抓取每个页面的第一个元素,我的目标是抓取页面内的所有元素,我做错了什么?

感谢您花时间帮助我,我正在尝试抓取网站每个页面中所有人的公开联系信息,因此我构建了 3 个功能,一个用于修改 URL,一个用于从中提取源代码使用 BeautifulSoup 和 one 对其进行转换,最后得到名称、标题、电子邮件、个人网站和简历,但由于某种我不知道的原因,我只取回每个页面的第一个元素,它确实涵盖了全部页面数量,但它只抓取第一个人。

这是我在该部分中编写代码的方式,如果您能给我一些提示或发现我正在做的错误,我将不胜感激:)