-2

我正在尝试使用 python 从某些网页中收集一些数据(它们没有 API)。我以前从来没有这样做过。

我认为它的 ASP.NET(我对此知之甚少)或一些他们正在使用的带有表单助手的库,这使得仅通过使用 urllib 发送相同的 postdata 来“手动”重新创建请求变得非常复杂。他们期望有各种奇怪的对人类不友好的后期数据——天知道他们的意思(以及开发人员)。

但是,我尝试删除这些并仅保留基本数据,但这会破坏请求。例如,当我在分页中更改页面时,某种“hash-ish”字符串也会发生变化(没有简单的 page=x 查询字符串就足够了)。

因此,花费数小时试图弄清楚一切是如何运作的,我认为这里有一些图书馆可以帮助我。有了一个像浏览器这样的界面,我可以开始给它一个 url 并说出要填写的表格,转到哪些链接,它会自动处理 cookie、隐藏的输入等,然后给我 html 输出。

我希望你明白我在找什么。也许它不存在,但我觉得它会很有用,所以它应该存在。

解决此问题的其他方法也很有帮助。

谢谢

4

2 回答 2

1

你应该试试 Scrapy。

Python 3 - 使用 Scrapy 抓取网页

scrapy.org

于 2013-01-20T01:35:44.470 回答
1

如果您需要类似浏览器的行为,请查看Selenium WebDriverghost.py 类似的项目。

于 2013-01-20T02:14:41.273 回答