4

我想创建一个从其他网站提取信息并将其打印到我的网站的网站,我正在研究阶段,所以我想听听一些意见,这个项目的最佳解决方案是什么?

我听说使用解析器的 Python 可以做到这一点我只是想知道我应该走什么路径以及我应该使用哪种语言?

4

5 回答 5

4

带有 BeautifulSoup 和 Urllib2 的 Python 可能会很好地为您服务。当然,您是否应该从其他网站抓取数据是值得怀疑的,如果这些网站更改布局,您可能会发现自己一直处于挣扎之中。

于 2013-06-14T00:49:36.857 回答
2

Requests就是为这类事情而设计的。

但是,在转义 HTML 之前,请检查网站是否提供 API。如果是这样,你已经在做生意了!

于 2013-06-14T00:53:31.547 回答
2

Python 具有出色的网络抓取功能:urllib、BeautifulSoup、XPath 等。此视频将帮助您快速开始使用 python 网络抓取:http ://www.youtube.com/watch?v= Ap_DlSrT-iE - 他正在使用 urllib 和 BeautifulSoup在他的示例脚本中抓取 huffingtonposts 的提要

如果您想要一个抓取系统(带有 Web 前端和管理员的抓取器来发布您抓取的内容),这对您来说可能是一个不错的选择 - https://github.com/holgerd77/django-dynamic-scraper - 我会高度如果您已经熟悉 Django,建议您这样做。

于 2013-06-14T01:04:00.943 回答
1

我更喜欢使用urllib2通过 URL 请求页面,然后使用正则表达式提取数据。如果数据是小块,这很有效。代码读起来相当不错:如果行包含 /regex/,则存储该值。

于 2013-06-14T00:55:36.063 回答
0

您可以编写一些网络蜘蛛从其他网站收集一些数据。通过使用 urllib2 或 requests 可以帮助您从网站下载 html。Beautiful 或 PyQuery 可以帮助您解析 html 并获取您想要的数据。

于 2013-06-14T02:17:43.200 回答