这两天我开始学习python。我想知道在python中编写爬虫的等效方法。
所以在红宝石中我使用:
nokogiri
用于爬取 html 并通过 css 标签获取内容Net::HTTP
并Net::HTTP::Get.new(uri.request_uri).body
从 url 获取 JSON 数据
这些在 python 中的等价物是什么?
这两天我开始学习python。我想知道在python中编写爬虫的等效方法。
所以在红宝石中我使用:
nokogiri
用于爬取 html 并通过 css 标签获取内容Net::HTTP
并Net::HTTP::Get.new(uri.request_uri).body
从 url 获取 JSON 数据这些在 python 中的等价物是什么?
好
主要是你必须将'scraper'/crawler 与将从网络服务器下载文件/数据的python lib/程序/函数和将读取此数据并解释数据的解析器分开。就我而言,我不得不废弃并获取一些“开放”但不适合下载/数据的政府信息。对于这个项目,我使用了 scrapy[1]。
主要是我设置了'starter_urls',它们是我的机器人将抓取/获取的url,并且在我使用函数'parser'来检索/解析这些数据之后。
对于解析/检索,您将需要一些 html、lxml 提取器,因为 90% 的数据就是这样。
现在专注于您的问题:
用于数据爬取
用于解析数据
请记住,“抓取”和报废不仅适用于网络,也适用于电子邮件。你可以在这里查看另一个问题 [6]
[1] = http://scrapy.org/
[2] - http://docs.python-requests.org/en/latest/
[3] - http://docs.python.org/library/urllib.html
[4] - http://lxml.de/
[5] - http://www.crummy.com/software/BeautifulSoup/
[6] - Python读取我的outlook邮箱并解析邮件
我也使用Beautiful Soup,它是解析 HTML 的非常简单的方法。当我抓取一些网页时,我也使用ElementTree XML API。就个人而言,我真的很喜欢 ElementTree 库(它易于解析 XML)。